Maşın Öyrənmədə Gizli Tələ: Dummy Dəyişəni Necə Səhvə Səbəb Olur?
...
Süni intellekt
Oxumaq vaxt alır?
Məqalələri dinləyə bilərsizDummy dəyişənləri nədir və niyə vacibdir?
Maşın öyrənmə alqoritmləri yalnız rəqəmsal girişləri qəbul edir. Bu, qırmızı, yaşıl və mavi kimi kategoriyalarla işləyərkən problem yaradır. Dummy dəyişənlər kategoriyaları rəqəmlərə çevirməklə bu problemi həll edir. Məsələn, bir datasetdə 'Color' adlı bir faktor varsa, bu, 'Color_Red', 'Color_Green' və 'Color_Blue' kimi sütunlara bölünür. Bu sütunlarda yalnız bir kateqoriya 1, digərləri isə 0 olur. Bu yanaşma modelin kategoriyaları düzgün öyrənməsinə imkan verir.
Dummy dəyişəni tələsi nədir?
Dummy dəyişəni tələsi, bütün kategoriyaların dummy dəyişənlərə çevrildiyi və modelə intercept term əlavə edildiyi zaman yaranır. Bu, mükəmməl multikollineariteyə səbəb olur, yəni bəzi dəyişənlər redundant məlumat daşıyır. Məsələn, 'Single', 'Married' və 'Divorced' kategoriyaları üçün üç dummy sütun yaradıldıqda hər bir sütun bir-birini tam şəkildə proqnozlaşdıra bilər. Bu, modelin unikal təsir əmsallarını hesablaya bilməməsinə gətirib çıxarır.
Multikollinearite niyə problem yaradır?
Multikollinearite, iki və ya daha çox predictor dəyişənin bir-biri ilə yüksək korrelyasiya göstərdiyi hallarda yaranır. Dummy dəyişəni tələsində bu korrelyasiya mükəmməldir. Bu, modelin hansı dəyişənin nəticəyə təsir etdiyini müəyyənləşdirməsini çətinləşdirir. Linear regresiya kimi modellərdə bu, matematik problemlərə səbəb olur və nəticələrin sabitliyini pozur.
Dummy dəyişəni tələsini necə qarşısını almaq olar?
Dummy dəyişəni tələsindən qaçmaq üçün kategoriyaların sayından bir az az dummy dəyişən yaratmaq lazımdır. Məsələn, üç kategoriya varsa, yalnız iki dummy sütun yaratmaq kifayətdir. Üçüncü kategoriya referans kimi qəbul edilir. Pandas kitabxanasında drop_first=True parametri ilə bu proses avtomatik olaraq həyata keçirilir.
Nəticə
Dummy dəyişənlər maşın öyrənmədə kategoriyaları rəqəmlərə çevirmək üçün effektiv bir vasitədir. Lakin, düzgün istifadə edilmədikdə, dummy dəyişəni tələsi modeldə ciddi problemlərə səbəb ola bilər. Kategoriyaların sayından bir az az dummy dəyişən yaratmaq bu problemi həll edir və modelin sabitliyini təmin edir.