Süni İntellekt
LLM-lərin Təzyiq Altında Düzgün Cavablardan İmtina Edə Biləcəyi Aşkarlandı
31
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizGoogle DeepMind və University College London tədqiqatçıları tərəfindən aparılan yeni bir araşdırma, böyük dil modellərinin (LLM) cavablarına necə əminlik yaratdığı, qoruduğu və itirdiyini təhlil edib. Araşdırma, LLM-lərin insanlarda müşahidə olunan bəzi kognitiv qərəzlərə oxşar davranış nümayiş etdirdiyini, lakin eyni zamanda onlardan fərqli xüsusiyyətlərə malik olduğunu ortaya qoyur.
Tədqiqat göstərir ki, LLM-lər bəzən öz cavablarına həddindən artıq əmin ola bilərlər, lakin səhv olsa belə, qarşı arqumentlərlə üzləşdikdə tez bir zamanda bu əminliyi itirərək fikirlərini dəyişə bilərlər. Bu davranış, xüsusilə çox mərhələli dialoqlar aparan süni intellekt interfeysləri hazırlanarkən nəzərə alınmalıdır.
LLM-lərin Əminlik Səviyyəsinin Sınağı
Tədqiqatçılar, LLM-lərin cavablarına olan əminlik dərəcəsini necə idarə etdiyini öyrənmək üçün xüsusi bir eksperiment həyata keçiriblər. Eksperimentdə, bir "cavab verən LLM"-ə əvvəlcə iki seçimdən birini seçməli olduğu sual verilib. Daha sonra, bu LLM-ə "məsləhətçi LLM"-dən məsləhət təqdim edilib. Məsləhət, müəyyən bir dəqiqlik dərəcəsi ilə (məsələn, "bu məsləhətçi LLM 70% dəqiqdir") qeyd olunub və ya cavabı dəstəkləyib, ya qarşı çıxıb, ya da neytral qalıb. Sonda cavab verən LLM-ə son qərarını vermək təklif olunub.
Eksperimentin mühüm hissəsi, LLM-in ilkin cavabının ikinci mərhələdə ona göstərilib-göstərilməməsi olub. Bəzi hallarda cavab göstərilib, digərlərində isə gizlədilib. Bu unikal yanaşma, insan iştirakçılarla mümkün olmayan bir ssenarini yaratmağa imkan verib, çünki insanlar əvvəlki seçimlərini sadəcə "unutmaq" qabiliyyətinə malik deyil. Bu üsul, keçmiş qərarın yadda saxlanılmasının cari əminlik üzərində necə təsir etdiyini təcrid etməyə imkan verib.
Həddindən Artıq və Az Əminlik
Tədqiqatın nəticələri göstərir ki, LLM-lər öz ilkin cavablarını gördükdə, cavablarını dəyişmək ehtimalları azalır. Bu, "seçim dəstəkləyici qərəz" kimi tanınan insan qərar qəbuletmə fenomeni ilə əlaqələndirilir. Digər tərəfdən, LLM-lər xarici məsləhətləri qəbul edir və əks məsləhətlə qarşılaşdıqda fikirlərini dəyişmək ehtimalları artır. Lakin bu zaman, model çox həssas davranır və əminlik səviyyəsini həddindən artıq dəyişdirir.
Maraqlıdır ki, bu davranış, insanların tez-tez nümayiş etdirdiyi "təsdiq qərəzi" ilə ziddiyyət təşkil edir. İnsanlar adətən mövcud inanclarını təsdiqləyən məlumatlara üstünlük verirlər. Lakin LLM-lər əks məsləhətləri dəstəkləyən məsləhətlərdən daha çox nəzərə alır. Tədqiqatçılar bunun səbəbini, insan rəyindən öyrənmə (RLHF) kimi təlim texnikalarının LLM-ləri istifadəçi girişlərinə həddindən artıq uyğunlaşdırmağa təşviq etməsi ilə izah edirlər.
Müəssisə Tətbiqlərinə Təsiri
Bu tədqiqat göstərir ki, süni intellekt modelləri hər zaman tamamilə məntiqi agentlər kimi qəbul edilə bilməz. Onlar özlərinə xas qərəzlərə malikdirlər ki, bu da onların davranışını insan baxımından qeyri-müəyyən edə bilər. Xüsusilə çox mərhələli insan-Aİ dialoqlarında, ən son məlumat LLM-in məntiqi üzərində həddindən artıq təsir göstərə bilər və düzgün cavabların gözardı edilməsinə səbəb ola bilər.
Tədqiqat həmçinin göstərir ki, LLM-lərin yaddaşını manipulyasiya etməklə bu qərəzləri azaltmaq mümkündür. Məsələn, uzun dialoqlar mütəmadi olaraq ümumiləşdirilə bilər və əsas faktlar neytral şəkildə təqdim edilərək yeni bir dialoqun başlanğıcı üçün istifadə edilə bilər. Bu yanaşma, uzadılmış dialoqlarda meydana çıxan qərəzlərin qarşısını almağa kömək edə bilər.
LLM-lərin müəssisə proseslərinə daha çox inteqrasiya edildiyi bir dövrdə, onların qərar qəbuletmə proseslərinin incəliklərini başa düşmək vacibdir. Bu cür tədqiqatlar, inkişaf etdiricilərə bu qərəzləri öncədən müəyyənləşdirmək və düzəltmək imkanı verir, nəticədə daha etibarlı və dayanıqlı tətbiqlər yaradır.