Süni İntellekt

Hugging Face: Süni İntellektin Sərhədlərini Genişləndirən 10 Dataset

...

Link kopyalandı

...

20.12.2025, 00:45

Süni intellekt

Oxumaq vaxt alır?

Məqalələri dinləyə bilərsiz

Hugging Face: AI Tədqiqatlarının Mərkəzi

Hugging Face, süni intellekt sahəsində çalışan tədqiqatçılar və inkişaf etdiricilər üçün əvəzolunmaz bir resurs halına gəlib. Bu platforma, modellərin təlimi və təkmilləşdirilməsi üçün təmiz, istifadəyə hazır datasetlər təqdim edir. Ən çox yüklənən datasetlər isə təkcə populyarlıqla deyil, həm də real dünya problemlərinin həllindəki effektivliyi ilə seçilir.

Ən Çox Yüklənən Datasetlər və Onların İstifadə Sahələri

1. DeepMind/code_contests

Bu dataset, DeepMind tərəfindən hazırlanmışdır və rəqabətli proqramlaşdırma problemlərini ehtiva edir. AlphaCode kimi sistemlərin təlimində istifadə edilən bu dataset, kod yazma qabiliyyətini və alqoritmik düşüncəni qiymətləndirmək üçün idealdır.

İstifadə sahələri:

Rəqabətli proqramlaşdırma modellərinin təlimi
Kod yaradılması və alqoritmik düşüncə bacarıqlarının qiymətləndirilməsi

2. Google-research-datasets/mbpp

Google Research tərəfindən yaradılan MBPP (Mostly Basic Python Problems) dataseti, Python dilindəki kiçik və aydın təlimatları ehtiva edir. Bu dataset, modellərin təlimatları anlama və düzgün kod yazma bacarıqlarını ölçmək üçün istifadə olunur.

İstifadə sahələri:

Python kod yazma modellərinin qiymətləndirilməsi
Təlimatları anlama və funksional düzgünlük testi

3. Salesforce/wikitext

WikiText, Wikipedia-dan seçilmiş yüksək keyfiyyətli məqalələrdən ibarətdir. Bu dataset, dil modellərinin təlimi üçün istifadə olunur və uzun mətnlərdəki məlumat axını ilə işləmək bacarığını ölçür.

İstifadə sahələri:

Dil modellərinin təlimi
Uzun mətnlərdə kontekst anlayışı və struktur analizi

4. m-a-p/FineFineWeb

FineFineWeb, internetdən toplanmış və təmizlənmiş böyük miqyaslı bir mətn korpusudur. Bu dataset, dil modellərinin ümumi dil anlayışını inkişaf etdirmək üçün istifadə olunur.

İstifadə sahələri:

Böyük dil modellərinin təlimi
İnternetdəki real yazı üslublarının öyrənilməsi

5. Banned-historical-archives/banned-historical-archives

Bu dataset, tarixi dövrlərdə qadağan edilmiş və ya senzura olunmuş materialları ehtiva edir. Tarixi və siyasi analizlər üçün əvəzolunmaz bir qaynaqdır.

İstifadə sahələri:

Tarixi və siyasi mətn analizi
Fərqli ideoloji və mədəni perspektivlərin öyrənilməsi

6. Lavita/medical-qa-shared-task-v1-toy

Tibbi sual-cavab dataseti, klinik suallara verilən dəqiq cavabları ehtiva edir. Bu dataset, tibbi sahədə süni intellekt sistemlərinin təlimi üçün istifadə olunur.

İstifadə sahələri:

Tibbi sual-cavab sistemlərinin təlimi
Faktiki düzgünlük və terminologiya analizi

7. AllenAI/c4

C4 (Colossal Clean Crawled Corpus), internetdən toplanmış və təmizlənmiş böyük miqyaslı bir korpusdur. Bu dataset, dil modellərinin təlimi üçün geniş istifadə olunur.

İstifadə sahələri:

Böyük dil modellərinin təlimi
Real dünya yazı üslublarının öyrənilməsi

8. MRSAudio/MRSAudio

MRSAudio, geniş və müxtəlif səs yazılarını ehtiva edir. Bu dataset, səs tanıma və audio analizi üçün istifadə olunur.

İstifadə sahələri:

Səs tanıma sistemlərinin təlimi
Audio təsnifatı və analiz

9. Princeton-nlp/SWE-bench_Verified

SWE-Bench Verified, real dünya proqramlaşdırma problemlərini həll etmək üçün modellərin bacarıqlarını qiymətləndirir. Bu dataset, GitHub-dan alınmış təsdiqlənmiş problemləri ehtiva edir.

İstifadə sahələri:

Proqram mühəndisliyi modellərinin qiymətləndirilməsi
Kod bazalarını idarəetmə bacarıqlarının testi

10. IPEC-COMMUNITY/bridge_orig_lerobot

Bu dataset, robotların real dünya mühitindəki davranışlarını öyrənmək üçün istifadə olunur. İmitasiya öyrənməsi və robot texnologiyasında mühüm rol oynayır.

İstifadə sahələri:

Robotların təlimi
Fiziki mühitdə qərar qəbul etmə və hərəkət analizi

Nəticə

Hugging Face-də ən çox yüklənən datasetlər, süni intellekt sahəsində real dünya problemlərinin həlli üçün kritik bir rol oynayır. Bu datasetlər, modellərin daha güclü, dəqiq və insan həyatına uyğun olmasına kömək edir.

...

Link kopyalandı