Süni İntellekt
Beyond static AI: MIT’s new framework lets models teach themselves
53
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizMIT araşdırmaçıları böyük dil modellərinin (LLM) davamlı olaraq öyrənib öz parametrlərini yeniləməsinə imkan yaradan "Özünü Uyğunlaşdıran Dil Modelləri" (SEAL) adlanan çərçivə hazırlayıblar. SEAL, LLM-in öz təlim məlumatlarını və yeniləmə təlimatlarını yaratmasını öyrədir, bununla da yeni bilikləri daimi olaraq mənimsəyib yeni tapşırıqları öyrənməsinə şərait yaradır. Bu çərçivə xüsusilə dinamik mühitlərdə fəaliyyət göstərən süni intellekt agentləri üçün faydalı ola bilər, çünki bu agentlər davamlı olaraq yeni məlumatları işləyib davranışlarını uyğunlaşdırmalıdır.
LLM-lərin uyğunlaşma problemi
Böyük dil modelləri təsirli qabiliyyətlər nümayiş etdirsə də, onları spesifik tapşırıqlara uyğunlaşdırmaq, yeni məlumatları inteqrasiya etmək və ya yeni məntiq bacarıqlarını mənimsəmək hələ də ciddi bir problem olaraq qalır. Hal-hazırda, LLM-lər yeni tapşırıqlarla qarşılaşdıqda, verilən məlumatlardan finetuning və ya kontekst içində öyrənmə kimi üsullarla faydalanır. Lakin təqdim olunan məlumatlar həmişə modelin effektiv şəkildə öyrənməsi üçün ideal formatda olmur. Mövcud yanaşmalar modelin yeni məlumatları transformasiya etmək və öyrənmək üçün öz strategiyalarını inkişaf etdirməsinə imkan vermir.
MIT-də doktorant olan və məqalənin həmmüəllifi Cyo Pari, "Bir çox korporativ istifadə halları sadəcə faktiki məlumatların xatırlanmasından daha çoxunu tələb edir—daha dərin, davamlı uyğunlaşma tələb edir," deyə bildirib. O, süni intellekt kodlaşdırma köməkçisi kimi bir nümunə gətirərək, modelin şirkətin spesifik proqram təminatı çərçivəsini mənimsəməsi və ya müştəriyə yönəlmiş modelin istifadəçinin unikal davranışlarını və ya üstünlüklərini öyrənməsi kimi halları vurğulayıb.
SEAL çərçivəsinin yaradılması
Araşdırmaçılar "böyük dil modellərini geniş miqyasda və effektiv şəkildə uyğunlaşdırmaq üçün öz təlim məlumatlarını və bu məlumatlardan istifadə üçün finetuning təlimatlarını yaratmaq qabiliyyəti ilə təchiz etməyi" təklif edirlər. SEAL, "özünü redaktə" adlanan təlimatları yaratmaq üçün bir möhkəmləndirici öyrənmə (RL) alqoritmindən istifadə edir. Bu təlimatlar modelə öz parametrlərini yeniləmək üçün göstərişlər verir. SEAL modeli məlumatları yenidən qurmaq, sintetik təlim nümunələri yaratmaq və ya öyrənmə prosesinin texniki parametrlərini təyin etmək üçün öz təlimatlarını yaradır.
Bu proses modelə öz fərdi tədris planını yaratmağı öyrədir. Xam məlumatı sadəcə oxumaq əvəzinə, model bu məlumatı daha asan mənimsəyə biləcəyi formata çevirmək üçün yenidən yazmağı və formatlaşdırmağı öyrənir. SEAL sintetik məlumat yaradılması, möhkəmləndirici öyrənmə və test zamanı öyrənmə kimi süni intellekt araşdırmalarının bir neçə əsas sahəsini bir araya gətirir.
SEAL-in fəaliyyət mexanizmi
SEAL iki dövrəli sistemdə işləyir: "daxili dövr"də model öz parametrlərində kiçik, müvəqqəti yeniləmə aparır, "xarici dövr"də isə sistem bu yeniləmənin hədəf tapşırıqda modelin performansını yaxşılaşdırıb-yaxşılaşdırmadığını qiymətləndirir. Əgər yeniləmə müsbət təsir göstəribsə, model mükafat alır və gələcəkdə effektiv özünü redaktə etmə qabiliyyətini artırır.
Araşdırmada SEAL çərçivəsi üçün tək bir modeldən istifadə edilib. Bununla yanaşı, bu prosesin "müəllim-tələbə" modelinə ayrılmasının mümkün olduğu vurğulanır. Xüsusi bir müəllim modeli ayrı bir tələbə model üçün effektiv özünü redaktə təlimatları yarada bilər. Bu yanaşma korporativ mühitlərdə daha ixtisaslaşmış və effektiv uyğunlaşma prosesləri yarada bilər.
SEAL-in test nəticələri
Araşdırmaçılar SEAL-i iki əsas sahədə test ediblər: biliklərin inteqrasiyası (yeni məlumatların daimi mənimsənilməsi) və az nümunəli öyrənmə (bir neçə nümunədən ümumiləşdirmə qabiliyyəti). SEAL biliklərin inteqrasiyası sahəsində xam məlumatlarla finetuning edən modeldən daha yüksək dəqiqlik göstərib. Sintetik məlumatlarla təlim keçmiş SEAL modeli, GPT-4.1 kimi böyük modellərdən daha üstün nəticələr əldə edib. Az nümunəli öyrənmə sahəsində SEAL 72.5% uğur nisbəti göstərib, bu isə RL təlimi olmadan 20% və standart kontekst içində öyrənmə metodu ilə 0% uğur nisbətindən xeyli yüksəkdir.
SEAL-in imkanları və məhdudiyyətləri
Araşdırmaçılar gələcəkdə insan tərəfindən yaradılan yüksək keyfiyyətli təlim məlumatlarının tükənə biləcəyini və modellərin öz sintetik təlim məlumatlarını yaratmaq qabiliyyətinin inkişaf etdirilməsindən asılı olacağını proqnozlaşdırırlar. SEAL bu imkanları süni intellekt agentlərinin inkişafında tətbiq etməyi təklif edir. Bununla yanaşı, SEAL-in daimi yenidən təlim dövrləri zamanı "katastrofik unutma" kimi problemlərə səbəb ola biləcəyi də qeyd olunur.
Müəlliflər SEAL-in korporativ mühitlərdə daha effektiv istifadəsi üçün hibrid yaddaş strategiyasını tövsiyə edirlər. Bu yanaşma faktiki və dəyişən məlumatların xarici yaddaşda saxlanılmasını, uzunmüddətli davranış formalaşdıran biliklərin isə SEAL vasitəsilə modelin parametrlərinə inteqrasiya edilməsini nəzərdə tutur. SEAL-in real vaxtda davamlı redaktə üçün qeyri-praktik olduğu, lakin müəyyən aralıqlarla yeniləmələr aparılmasının daha məqsədəuyğun olduğu vurğulanır.
SEAL çərçivəsi süni intellekt modellərinin statik qalmasının qarşısını alır və onları yeni bilikləri mənimsəyərək yeni tapşırıqlara uyğunlaşmağa imkan verir. Bu, süni intellektin korporativ mühitlərdə istifadəsi üçün geniş perspektivlər açır.