Süni İntellekt
Microsoft yeni AI çərçivəsini təqdim edir
22
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizMicrosoft Research, süni intellekt modellərini daha az hesablama xərci ilə təlim etmək üçün rStar2-Agent adlı yeni möhkəmləndirici öyrənmə çərçivəsini hazırlayıb. Bu çərçivə, innovativ alqoritmik yanaşmalar və proqram təminatı optimallaşdırmaları ilə modellərin daha effektiv şəkildə təlim almasını təmin edir.
rStar2-Agent nədir?
Microsoft-un təqdim etdiyi rStar2-Agent çərçivəsi, süni intellekt modellərinin kompleks məntiq problemlərini həll etmə qabiliyyətini artırır. Bu yanaşma, modellərin daha az məlumat və daha az hesablama gücü ilə daha dəqiq nəticələr əldə etməsinə imkan verir. Məsələn, rStar2-Agent ilə təlim edilmiş 14 milyard parametrli model, 671 milyard parametrli DeepSeek-R1 modelindən daha yaxşı performans göstərib.
Ağıllı Düşüncə Yanaşması
Ənənəvi AI modelləri uzun məntiq zəncirləri quraraq problemləri həll edir. Lakin bu yanaşma, bir səhvin bütün nəticəni poza biləcəyi vəziyyətlərdə məhdudiyyətlər yaradır. Microsoft tədqiqatçıları, modellərin daha ağıllı düşünməsi üçün onları alətlərdən istifadə etməyə, işlərini doğrulamağa və geribildirimdən öyrənməyə yönəldir. Bu “agentik möhkəmləndirici öyrənmə” metodu ilə modellər Python kod mühitində fəaliyyət göstərərək hesablamalar aparır və nəticələri təhlil edir.
Çətinliklər və Həllər
Bu yanaşma geniş miqyasda tətbiq edildikdə bir sıra çətinliklər yaradır. Kod mühitindəki mürəkkəblik modellərin əsas məntiq tapşırıqlarından yayındıra bilər. Həmçinin, böyük miqyaslı agentik təlimdə hər bir təlim partiyası on minlərlə alət çağırışını tələb edir. rStar2-Agent çərçivəsi, bu problemləri həll etmək üçün yüksək ötürmə qabiliyyətli və balanslı proqram təminatı infrastrukturu qurmuşdur. Bu infrastruktur, 45000 paralel alət çağırışını idarə edə bilir və GPU resurslarını effektiv şəkildə bölüşdürür.
GRPO-RoC Alqoritmi
rStar2-Agent çərçivəsi, möhkəmləndirici öyrənmə üçün GRPO-RoC adlanan xüsusi alqoritmdən istifadə edir. Bu alqoritm, kod mühitindən gələn səs-küylü geribildirimləri süzgəcdən keçirərək yüksək keyfiyyətli təlim siqnalları yaradır. GRPO-RoC ilə modellər daha dəqiq və qısa kodlar yarada bilir, bu da müəssisə tətbiqlərində iş axınını daha sabit edir.
Təlim Strategiyası
Tədqiqatçılar, modeli daha az hesablama resursları ilə təlim etmək üçün xüsusi təlim strategiyası hazırlayıblar. İlk mərhələdə modelə ümumi təlimatlar və kod alətlərindən istifadə qaydaları öyrədilir. Daha sonra, problem mürəkkəbliyi və cavab uzunluğu mərhələli şəkildə artırılır. Bu metod, modellərin daha ağıllı və effektiv şəkildə öyrənməsini təmin edir.
Nəticələr və Gələcək Perspektivlər
rStar2-Agent ilə təlim edilmiş 14 milyard parametrli model, daha böyük modellərlə müqayisədə daha yüksək dəqiqlik və qısa cavablar təqdim edir. Bu yanaşma, modellərin daha ağıllı şəkildə alətlərdən istifadə edərək geniş miqyaslı problemləri həll etməsinə imkan verir. Tədqiqatçılar, bu metodun daha böyük modellərə tətbiq edildikdə daha güclü nəticələr verəcəyini vurğulayırlar.
Microsoft-un bu innovativ yanaşması, süni intellektin dərman kəşfi, hüquqi analiz və maliyyə modelləşdirmə kimi sahələrdə tətbiqini genişləndirə bilər. Lakin real dünya alətləri ilə qarşılıqlı əlaqə qurmaq daha mürəkkəb problemlər yarada bilər. Bu çətinliklərin həlli agentik AI-nin növbəti dalğasını formalaşdıracaq.