Süni İntellekt
DeepMind araşdırması: Vektor axtarışında məhdudiyyətlər
30
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizVektor Əsaslı Axtarış Texnologiyası: Yeni Məhdudiyyətlər Aşkar Edildi
DeepMind tərəfindən aparılan son araşdırma, vektor əsaslı axtarış sistemlərinin fundamental məhdudiyyətlərini ortaya qoyub. Bu məhdudiyyətlər, xüsusilə retrieval-augmented generation (RAG) və semantik axtarış kimi qabaqcıl texnologiyalarda ciddi problemlər yarada bilər. Araşdırmaya görə, bu problem daha böyük modellər və ya əlavə təlim məlumatları ilə aradan qaldırıla bilmir. Əsas məhdudiyyət, tək vektor əsaslı yanaşmanın mürəkkəb sorğuların bütün mümkün uyğunluqlarını təmsil etməkdə çatışmazlıqlarından qaynaqlanır.
Vektorların Əsas Rolunu Anlamaq
Vektor əsaslı yanaşmalar, mətn, şəkil və ya səs kimi strukturlaşdırılmamış məlumatları yüksək ölçülü fəzalarda riyazi təsvirlərə çevirir. Bu texnologiya, məlumatlar arasındakı semantik əlaqələri müəyyən etməyə imkan verir. Lakin son illərdə "təlimat-izləyici" axtarış texnologiyasının inkişafı, bu yanaşmanı daha mürəkkəb vəzifələrə uyğunlaşdırmağa çalışıb. Araşdırmanın müəllifləri qeyd edir ki, mürəkkəblik artdıqca, tək vektor yanaşması "geometrik məhdudiyyətlər" səbəbindən uğursuzluğa uğrayır.
Təcrübə: Məhdudiyyətlərin Həddi
Araşdırma qrupunun apardığı təcrübələr göstərib ki, tək vektor yanaşmasının həddi hətta ideal şərtlərdə belə mövcuddur. Onlar "pulsuz vektor optimallaşdırması" adlı eksperimentdə dil modellərindən istifadə etmədən, yalnız riyazi vektorların həndəsi imkanlarını araşdırıblar. Nəticələr göstərib ki, müəyyən bir vektor ölçüsü üçün sənədlərin sayı çoxaldıqca, uyğun nəticələrin bütün mümkün birləşmələrini təmsil etmək qeyri-mümkün olur. Real dünya miqyasında, hətta ən böyük vektor ölçüləri belə bu mürəkkəbliyi tam əhatə edə bilmir.
Yeni LIMIT Dataseti və Əldə Olunan Nəticələr
Araşdırma qrupu, mövcud modellərin məhdudiyyətlərini göstərmək üçün LIMIT adlı xüsusi dataset yaradıb. Bu dataset sadə sorğularla (məsələn, "Kim alma sevir?") modellərin müxtəlif uyğunluqlara cavab vermək qabiliyyətini sınayıb. Nəticələr göstərib ki, Google və Snowflake kimi qabaqcıl modellər bu tapşırıqda zəif nəticələr göstərir, bəzi hallarda yalnız 20% yaddaş göstəricilərinə nail olublar. Maraqlıdır ki, BM25 kimi onilliklər əvvəl inkişaf etdirilmiş leksik axtarış alqoritmləri bu tapşırıqda daha yaxşı performans göstərib.
Əsas Çıxarışlar və Tövsiyələr
Araşdırma, AI tətbiqlərində mürəkkəb məntiqi əlaqələrin tələb olunduğu hallarda tək vektor yanaşmasının performans məhdudiyyətlərinə çatacağını vurğulayır. Müəlliflər, daha dayanıqlı sistemlər qurmaq üçün hibrid yanaşma tövsiyə edirlər:
- Hibrid Axtarış Arxitekturası: Sıx vektor yanaşmalarını (dense embeddings) BM25 kimi seyrək metodlarla birləşdirərək həm semantik anlayışı, həm də dəqiqliyi təmin etmək.
- Qiymətləndirmə Strategiyasını Yenidən Düşünmək: Akademik reytinqlərdən kənara çıxaraq real dünya sorğularını əks etdirən daxili qiymətləndirmələr aparmaq.
- Yeni Arxitekturalara Yönəlmək: Cross-encoder və çox vektor modelləri kimi daha ifadəli arxitekturaları tədqiq etmək.
Araşdırma, həmçinin elmi ictimaiyyəti tək vektor yanaşmalarının imkanlarını daha dərindən araşdırmağa çağırır. Müəlliflər qeyd edir ki, mövcud modellər hələ bu yanaşmanın potensialını tam şəkildə istifadə edə bilmir. Buna görə, gələcəkdə daha inkişaf etmiş təlim metodları və qiymətləndirmə yanaşmaları tələb olunur.