Anthropic böyük dil modellərini qorumaq üçün yeni üsul təklif edir - Tech Xəbər

Süni İntellekt

Anthropic böyük dil modellərini qorumaq üçün yeni üsul təklif edir

24
Link kopyalandı

34

01.07.2025, 20:00

Süni intellekt

Oxumaq vaxt alır?

Məqalələri dinləyə bilərsiz

Anthropic şirkəti böyük dil modellərini (BDM) qarşılaşdığı "cəza hücumlarından" qorumaq üçün yeni bir yanaşma təqdim edib. Bu hücumlar, adətən, modellərin proqramlaşdırılmış məhdudiyyətlərini aşaraq zərərli və ya etik olmayan məlumatlar yaratmasına səbəb ola bilər. Şirkət, bu yanaşmanın "cəza hücumlarına" qarşı ən güclü müdafiə mexanizmlərindən biri ola biləcəyini iddia edir.

Anthropic-in LLM Claude adlanan modeli artıq bəzi zərərli sorğulara cavab verməkdən imtina edəcək şəkildə təlim keçib. Məsələn, model kimyəvi silahlarla bağlı sorğulara cavab vermir. Lakin bəzi istifadəçilər xüsusi formatlaşdırma və ya qeyri-adi ifadələrdən istifadə edərək bu məhdudiyyətləri aşmağa çalışırlar. Belə hücumlar "universal cəza hücumları" adlandırılır və bu hücumlar modelin bütün müdafiə mexanizmlərini sıradan çıxara bilər.

Anthropic, bu hücumlara qarşı "qalxan" adlandırdığı yeni bir filtr sistemi hazırlayıb. Şirkət, modelə həm uyğun, həm də uyğun olmayan sualları əhatə edən geniş bir sintetik məlumat bazası təqdim edib. Bu məlumatlar müxtəlif dillərə tərcümə olunaraq və fərqli formatlarda yenidən yazılaraq filtrin təlimi üçün istifadə olunub. Nəticədə, filtr potensial zərərli sorğuları və cavabları bloklamaq üçün təlim keçib.

Şirkət, filtrin effektivliyini test etmək üçün bir yarışma keçirib. Təcrübəli "cəza hücumçuları" Claude modelini sıradan çıxarmağa çalışıblar. Yarışmada iştirak edən 183 nəfər 3000 saatdan çox vaxt sərf etsə də, yalnız 5 sualdan çoxuna cavab almağı bacarıblar. Bundan əlavə, Anthropic modeli 10,000 müxtəlif "cəza hücumu" ilə test edib. Qalxan olmadan hücumların 86%-i uğurlu olub, lakin filtr aktiv olduqda bu rəqəm yalnız 4.4%-ə düşüb.

Lakin bu yanaşmanın bəzi məhdudiyyətləri də var. Filtr bəzi zərərsiz sualları da bloklaya bilər ki, bu da istifadəçilər üçün narahatlıq yarada bilər. Bundan əlavə, filtrin tətbiqi modelin işləmə xərclərini 25% artırır. Buna baxmayaraq, mütəxəssislər bu yanaşmanı böyük bir irəliləyiş kimi qiymətləndirirlər. Onların fikrincə, belə filtr sistemləri təhlükəsizlik sahəsində mühüm addım ola bilər.

Anthropic nümayəndələri bildiriblər ki, sistem "məğlubedilməz" deyil, lakin hücumları həyata keçirmək üçün tələb olunan səyləri artıraraq potensial zərərli fəaliyyətlərin qarşısını ala bilər. Şirkət, bu sahədə tədqiqatlarını davam etdirmək niyyətindədir.

24
Link kopyalandı

Bir istifadəçi, ChatGPT-ni kalkulyatorda işə salmağı bacarıb! (VİDEO)