DeepSeek mHC: Dil Modellərində Sabitlikdə Yeni Dövr Başlayır - Tech Xəbər

DeepSeek mHC: Dil Modellərində Sabitlikdə Yeni Dövr Başlayır

12
Link kopyalandı

430

Dünən, 07:27

Süni intellekt

Oxumaq vaxt alır?

Məqalələri dinləyə bilərsiz

Təlim Sabitliyində Çətinliklər

Böyük dil modelləri, xüsusilə yüz milyardlarla parametrə malik olanlar, süni intellekt sahəsində irəliləyişlərə səbəb olsa da, təlim zamanı ciddi sabitlik problemləri ilə üzləşirlər. ResNet ilə başlayan residual bağlantılar, məlumatın təbəqələr arasında daha rahat axmasını təmin etsə də, model ölçüləri böyüdükcə bu yanaşmanın məhdudiyyətləri üzə çıxdı.

Hyper-bağlantılar (HC), məlumat axını yollarını genişləndirərək performansı artırdı, lakin sabitlik məsələsini həll edə bilmədi. Təlim zamanı qəfil itkilər və partlayan gradientlər böyük resurs itkilərinə səbəb olurdu.

Manifold-Məhdudlaşdırılmış Hyper-Bağlantılar (mHC)

mHC, residual bağlantıların davranışını yenidən düşünərək sabitlik və performansı artırır. Bu yanaşma, məlumat axını matrislərini Birkhoff poliopuna proyeksiya edərək sabit normları təmin edir və siqnalların partlamasının qarşısını alır.

DeepSeek-in təklif etdiyi mHC, üç əsas bağlantı matrisindən istifadə edir: H_pre giriş məlumatını təbəqəyə ötürür, H_post təbəqədən çıxışı geri qaytarır, H_res isə məlumat axınını idarə edir. Bu sistem, məlumatın təbəqələr arasında daha effektiv ötürülməsini təmin edir.

Sabitlik və Performansın Ölçülməsi

DeepSeek, mHC-nin sabitliyini və performansını müxtəlif ölçülü modellərdə sınadı. 3 milyarddan 27 milyarda qədər parametrlərə malik modellərdə təlim itkiləri sabit qaldı, gradient normları nəzarət altında saxlandı və performans bir neçə testdə əhəmiyyətli dərəcədə yaxşılaşdı.

Məsələn, 27 milyard parametrlik modelin nəticələri:

  • BBH məntiq testləri: 51.0% (əsas: 43.8%)
  • DROP oxuma anlama testi: 53.9% (əsas: 47.0%)
  • GSM8K riyaziyyat problemləri: 53.8% (əsas: 46.7%)
  • MMLU bilik testi: 63.4% (əsas: 59.0%)

Bu, yalnız kiçik irəliləyişlər deyil, əhəmiyyətli inkişaflardır.

İnsanlar Üçün Tətbiq və Gələcək Perspektivlər

mHC, süni intellekt sahəsində dizaynın nə qədər vacib olduğunu bir daha göstərir. Texnologiyanın daha böyük modellərə uyğunlaşması ilə yanaşı, sabitlik problemlərinin həlli üçün dərin araşdırmaların önəmi vurğulanır. mHC, böyük dil modelləri ilə çalışan tədqiqatçılar üçün yeni üfüqlər açır və süni intellektin gələcəyini daha sabit və effektiv edir.

12
Link kopyalandı