Süni İntellekt
Terminal-Bench 2.0 və Harbor AI agents: Süni intellektdə inqilaba səbəb olacaq yeniliklər
53
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizSüni İntellektdə Yeni Dövr: Terminal-Bench 2.0 və Harbor
Süni intellekt sahəsində mühüm yeniliklərdən biri olaraq, Terminal-Bench 2.0 və Harbor adlı iki yeni alət təqdim edildi. Bu alətlər, süni intellekt agentlərinin konteyner mühitlərində test olunmasını və optimallaşdırılmasını daha mükəmməl şəkildə həyata keçirmək üçün nəzərdə tutulub.
Yeni Standartlar: Terminal-Bench 2.0
Terminal-Bench 2.0, süni intellekt agentlərinin terminal əsaslı real dünya tapşırıqlarında performansını qiymətləndirmək üçün nəzərdə tutulmuş benchmark alətinin təkmilləşdirilmiş versiyasıdır. 2025-ci ilin may ayında təqdim edilən ilk versiya sahədə geniş yayılaraq standart halını aldı. Lakin həmin versiyada bəzi tapşırıqların qeyri-sabitliyi və qeyri-dəqiqliyi ilə bağlı problemlər müşahidə olunurdu.
İndi isə Terminal-Bench 2.0 bu çatışmazlıqları aradan qaldırır. Yeni versiyada 89 tapşırıq yer alır və hər biri saatlarla davam edən əl və LLM dəstəkli yoxlamadan keçib. Bu tapşırıqların daha çətin, eyni zamanda daha etibarlı və təkrarlanabilən olduğu bildirilir. Məsələn, download-youtube adlı tapşırıq qeyri-sabit API-lərə bağlı olduğu üçün ya tamamilə silinib, ya da yenidən işlənib.
Bu barədə layihənin həmtəsisçisi Alex Shaw belə deyib: 'Astute Terminal-Bench fanatları görəcək ki, TB2.0 daha çətin olsa da, SOTA performansı TB1.0 ilə müqayisədə oxşardır. Bunun səbəbi, yeni benchmarkda tapşırıqların keyfiyyətinin xeyli yüksək olmasıdır.'
Harbor: Süni İntellekt Agentlərinin Testi Üçün İnteqrasiya Olunmuş Çərçivə
Terminal-Bench 2.0 ilə yanaşı təqdim olunan Harbor, süni intellekt agentlərini konteynerlərdə test etmək və miqyaslı şəkildə dəyərləndirmək üçün nəzərdə tutulmuş yeni çərçivədir. Harbor, həm açıq mənbəli, həm də özəl agentlər və təlim boru xətləri ilə tam inteqrasiya oluna bilir. Bu çərçivə, genişmiqyaslı bulud konteynerlərində testləri asanlıqla həyata keçirməyə imkan verir və süni intellekt sahəsindəki tədqiqatçıların işini xeyli sadələşdirir.
Harbor artıq on minlərlə testin keçirilməsində istifadə olunmuş və indi ictimaiyyət üçün açıq şəkildə istifadəyə verilib. İstənilən konteynerə quraşdırıla bilən agentlərin qiymətləndirilməsi, nəzarətli incə tənzimləmə (SFT) və möhkəmləndirilmiş öyrənmə (RL) boru xətləri ilə miqyaslı şəkildə həyata keçirilə bilər. Harborframework.com saytında bu alət haqqında ətraflı məlumat və istifadə təlimatları təqdim olunur.
İlk Nəticələr: GPT-5 Liderdir
Terminal-Bench 2.0-nin ilk nəticələri OpenAI-nin GPT-5 ilə təchiz olunmuş Codex CLI agentinin 49.6% uğur göstəricisi ilə lider olduğunu göstərir. Digər GPT-5 variantları və Claude Sonnet 4.5 əsaslı agentlər də yüksək nəticələr əldə ediblər.
Ən yaxşı 5 agent:
- Codex CLI (GPT-5) — 49.6%
- Codex CLI (GPT-5-Codex) — 44.3%
- OpenHands (GPT-5) — 43.8%
- Terminus 2 (GPT-5-Codex) — 43.4%
- Terminus 2 (Claude Sonnet 4.5) — 42.8%
Bu nəticələr göstərir ki, süni intellekt agentləri arasında ciddi rəqabət mövcuddur və hələ heç bir agent tapşırıqların yarısından çoxunu həll edə bilmir.
Standartlaşmaya Doğru Addım
Bu iki alətin birgə təqdimatı süni intellekt agentlərinin qiymətləndirilməsində daha ardıcıl və miqyaslı yanaşma üçün mühüm addımdır. Süni intellekt agentlərinin inkişafı, mühit simulyasiyası və benchmark standartlarının yaradılması sahəsində bu alətlər yeni təməl ola bilər.