Süni İntellekt
Open-source MCPEval ilə Süni İntellekt Agentlərinin Qiymətləndirilməsi Asanlaşır
13
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizSüni intellekt sahəsindəki inkişaflar yeni bir mərhələyə qədəm qoyur. Salesforce tədqiqatçıları, Model Kontekst Protokolu (MCP) texnologiyasını istifadə edərək süni intellekt agentlərinin performansını qiymətləndirmək üçün yeni bir üsul təqdim etdilər. Bu üsul "MCPEval" adlanan açıq mənbəli bir vasitədir və agentlərin alətlərlə necə qarşılıqlı əlaqədə olduğunu test etmək üçün nəzərdə tutulub.
Bu günə qədər agentlərin qiymətləndirilməsi əsasən statik və əvvəlcədən müəyyən edilmiş tapşırıqlara əsaslanırdı ki, bu da real dünyadakı dinamik iş axınlarını tam əhatə edə bilmirdi. MCPEval isə bu məhdudiyyətləri aradan qaldıraraq tapşırıqların detallı izləmə məlumatlarını və protokol səviyyəsində qarşılıqlı əlaqə məlumatlarını toplayır. Bu məlumatlar agentlərin davranışlarını daha dərindən anlamağa və onların modellərini təkmilləşdirmək üçün qiymətli məlumatlar yaratmağa imkan verir.
MCPEval-in əsas üstünlüklərindən biri onun tam avtomatlaşdırılmış proses olmasıdır. Bu vasitə, agentlərin MCP serverləri daxilində alətlərlə necə işlədiyini qiymətləndirir, süni məlumatlar yaradır və agentlərin performansını müqayisə etmək üçün bir məlumat bazası qurur. İstifadəçilər, MCPEval vasitəsilə hansı MCP serverlərini və server daxilindəki alətləri test etmək istədiklərini seçə bilərlər.
Salesforce-da baş süni intellekt tədqiqat meneceri və məqalənin həmmüəlliflərindən biri olan Şelbi Heinecke, VentureBeat-ə verdiyi açıqlamada, agentlərin performansını dəqiq qiymətləndirməyin çətin olduğunu vurğuladı. "Texnologiya sektorunda agentləri yerləşdirməyi öyrəndik, lakin onların düzgün qiymətləndirilməsi üçün hələ çox iş görülməlidir. MCPEval məhz bu istiqamətdə əhəmiyyətli bir addımdır," deyə o bildirib.
MCPEval-in işləmə mexanizmi tapşırıq yaradılması, təsdiqi və modelin qiymətləndirilməsi dizaynına əsaslanır. İstifadəçilər, bir server seçib, tapşırıqları avtomatik olaraq yaradan bir modeli konfiqurasiya edərək agentləri müxtəlif böyük dil modelləri (LLM) vasitəsilə test edə bilərlər. MCPEval həmçinin agentlərin performansındakı boşluqları müəyyənləşdirir və bu məlumatlarla onların gələcəkdə daha yaxşı işləməsi üçün təlim keçirir.
Tədqiqatçılar qeyd edirlər ki, MCPEval vasitəsilə yaradılan əhatəli qiymətləndirmə hesabatları, agent-platform kommunikasiya dəqiqliyini daha dərindən anlamağa imkan verir. Məsələn, GPT-4 modelləri ilə aparılan testlərdə bu modelin ən yaxşı nəticələr verdiyi müşahidə edilib.
Agentlərin qiymətləndirilməsi sahəsində digər yanaşmalar da mövcuddur. Məsələn, Galileo adlı bir startap, agentlərin alət seçiminin keyfiyyətini qiymətləndirmək üçün çərçivə təklif edir. Singapore Management Universitetinin tədqiqatçıları isə AgentSpec adlı bir vasitə təqdim edərək agentlərin etibarlılığını izləməyi hədəfləyir. Digər tərəfdən, MCP-Radar və MCPWorld kimi akademik tədqiqatlar da bu sahədə yeni yanaşmalar təqdim edir.
Heinecke vurğuladı ki, hər bir müəssisə üçün uyğun qiymətləndirmə çərçivəsini seçmək vacibdir. "Bu çərçivələrin hər biri müəyyən dəyər təqdim edir, lakin ən vacib qiymətləndirmə real dünya mühitini əks etdirən domen-spesifik qiymətləndirmədir," deyə o əlavə edib.
MCPEval, süni intellekt agentlərinin təkmilləşdirilməsi və daha dəqiq qiymətləndirilməsi yolunda mühüm bir addım kimi görünür. Bu vasitə, müəssisələrə agentlərin real dünyada daha effektiv işləməsi üçün lazımi infrastrukturu təmin etməkdə kömək edə bilər.