Süni İntellekt
OpenAI-nin o3 modeli elmi suallara cavab vermədə lider oldu
2
Süni İntellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizOpenAI tərəfindən hazırlanmış o3 adlı süni intellekt (SI) modeli elmi suallara cavab vermək üzrə yeni reytinq cədvəlində birinci yeri tutub. Bu qiymətləndirmə keçən həftə istifadəyə verilmiş SciArena platforması tərəfindən aparılıb. SciArena, Seattle, Vaşinqtonda yerləşən Allen Süni İntellekt İnstitutu (Ai2) tərəfindən hazırlanıb və 23 böyük dil modelinin (LLM) elmi suallara verdiyi cavabları qiymətləndirib. 102 tədqiqatçının səsverməsi nəticəsində o3 modeli təbiət elmləri, səhiyyə, mühəndislik, humanitar və sosial elmlər sahələrində ən yaxşı nəticəni göstərib. Ümumilikdə 13,000-dən çox səs toplanıb.
Çində Hangzhou şəhərində yerləşən DeepSeek şirkəti tərəfindən yaradılmış DeepSeek-R1 modeli təbiət elmləri üzrə ikinci, mühəndislik üzrə isə dördüncü yerdə qərarlaşıb. Google-un Gemini-2.5-Pro modeli isə təbiət elmləri üzrə üçüncü, mühəndislik və səhiyyə üzrə beşinci yerdə olub.
Ai2 tədqiqatçısı Arman Cohan-a görə, istifadəçilərin o3 modelinə üstünlük verməsinin səbəbi onun cavablarında ədəbiyyat istinadlarına geniş yer ayırması və texniki cəhətdən dəqiq cavablar təqdim etməsidir. Lakin modellərin performans fərqlərini izah etmək çətindir, çünki əksəriyyəti məxfi əsaslarla işləyir. Təlim məlumatları və modellərin optimallaşdırıldığı məqsədlər kimi amillər bu fərqlərə təsir edə bilər.
SciArena platforması LLM modellərinin müəyyən tapşırıqlardakı performansını qiymətləndirmək üçün yaradılmış ən son vasitələrdən biridir və elmi tapşırıqlar üzrə performansı crowdsourcing (kütləvi səsvermə) ilə qiymətləndirən ilk platformalardandır. Avstraliya Milli Universitetindən robototexnika və SI tədqiqatçısı Rahul Shome SciArena-nın belə bir qiymətləndirmə aparmasını müsbət addım kimi qiymətləndirib və bunun LLM-lərin elmi ədəbiyyat tapşırıqlarında necə istifadə edildiyinə diqqət çəkmək üçün faydalı olduğunu bildirib.
Platforma 23 LLM-i sıralamaq üçün tədqiqatçılardan elmi suallar qəbul edib. Bu suallara cavablar təsadüfi seçilmiş iki model tərəfindən təqdim edilib və cavablar Ai2-nin hazırladığı Semantic Scholar tədqiqat vasitəsindən götürülmüş istinadlarla dəstəklənib. İstifadəçilər daha sonra hansı modelin ən yaxşı cavabı təqdim etdiyini, hər iki modelin oxşar performans göstərdiyini və ya heç birinin yaxşı olmadığını qiymətləndiriblər.
Platforma hazırda ictimaiyyətə açıqdır və istifadəçilərə elmi suallar vermək imkanı yaradır. İstifadəçilər iki modeldən cavab alır və onların performansını qiymətləndirə bilirlər. Lakin yalnız şərtlərlə razılaşan və təsdiqlənmiş istifadəçilərin səsləri reytinq cədvəlində nəzərə alınır. Şirkət bu reytinq cədvəlinin mütəmadi olaraq yenilənəcəyini bildirib.
Sidney Universitetindən SI tədqiqatçısı Conatan Kummerfeld bildirib ki, elmi mövzular üzrə LLM-lərə suallar verib cavablarına etibar etmək bacarığı tədqiqatçıların öz sahələrində ən son ədəbiyyatı izləməsinə kömək edəcək. "Bu, tədqiqatçıların əvvəlcə diqqətdən yayınmış işləri tapmasına kömək edəcək," deyə o əlavə edib.