Süni İntellektin Gücünü Necə Ölçmək Olar? Yeni Ümumi Miqyaslar Açıqlandı

Link kopyalandı

...

08.04.2026, 21:30

Süni intellekt

Oxumaq vaxt alır?

Məqalələri dinləyə bilərsiz

Süni İntellektin Qiymətləndirilməsində Yeni Dövr

Süni intellektin təhlükəsiz və effektiv istifadəsi üçün onun müxtəlif tapşırıqlardakı performansını anlamaq və qabaqcadan təxmin etmək vacibdir. Ənənəvi qiymətləndirmə üsulları AI sistemlərinin ümumi gücünü tam əks etdirə bilmir və onların yeni tapşırıqlarda necə işləyəcəyini proqnozlaşdırmaqda məhdudiyyətlərə malikdir. Bu problemi həll etmək üçün tədqiqatçılar 18 rubrikadan ibarət ümumi miqyaslar təqdim ediblər.

ADeLe Batareyası və Qiymətləndirmə Metodologiyası

ADeLe batareyası 20 benchmarkdan, 63 tapşırıqdan və 16,108 nümunədən ibarətdir. Bu geniş platforma 15 böyük dil modelinin (LLM) qabiliyyətlərini ölçmək üçün istifadə olunub. Rubrikalar 0-dan 5+ səviyyələrinə qədər olan tələbləri qiymətləndirir və insan annotatorları ilə GPT-4o tərəfindən yüksək razılıqla tətbiq edilir (rWG orta göstəricisi 0.86).

Model Ölçüsü və Zəncirvari Düşüncənin Rolu

Qiymətləndirmə nəticələri göstərir ki, model ölçüsü bilik qabiliyyətlərinin əsas təyin edicisidir. Eyni zamanda, zəncirvari düşüncə və nəticə çıxarma kimi metodlar bəzi qabiliyyətləri, xüsusilə riyazi və məntiqi düşüncə, eləcə də sosial qavrama sahələrində əhəmiyyətli dərəcədə artırır. Tələb əsaslı qiymətləndiricilər (assessorlar) isə yeni tapşırıqlarda və benchmarklarda digər üsullardan üstün performans nümayiş etdirir.

Tam Avtomatlaşdırılmış və Açıq Mənbəli Platforma

Qiymətləndirmə metodologiyası tam avtomatlaşdırılıb və açıq mənbə kimi təqdim olunur. Bu, AI sistemlərinin qabiliyyətlərini izah etmək və gələcəkdə yeni tapşırıqlarda proqnozlaşdırmaq üçün güclü vasitə yaradır. Rubrikalar və miqyaslar gələcəkdə yeni qabiliyyətlərlə genişləndirilə bilər, lakin multimodal və agentik AI sistemlərində tətbiq məsələləri hələ açıqdır.

İnsanlar və Gələcək Perspektivlər

Bu yenilik süni intellektin daha etibarlı və məqsədyönlü inkişafına yol açır. İnsanlar AI-nin zəif və güclü tərəflərini daha yaxşı anlaya, təhlükəsizliyini təmin edə biləcəklər. Bu da gündəlik həyatda AI-nin daha faydalı və etibarlı istifadəsinə imkan yaradacaq. Qiymətləndirmə platforması https://kinds-of-intelligence-cfi.github.io/ADELE ünvanında mövcuddur və tədqiqatçılar, inkişafçılar üçün açıqdır.

Link kopyalandı