Yapay zeka modelleri neden bazı dil kurallarında başarısız? Çözüm veri eksikliği

Büyük dil modelleri, trilyonlarca kelimeyle eğitildikten sonra bile bazı dil kurallarında şaşırtıcı derecede başarısız oluyor. Araştırmacılar bu durumun mimari sınırlardan mı yoksa belirli dil yapılarının eğitim verilerinde az bulunmasından mı kaynaklandığını araştırdı. GPT-2 Small modeli üzerinde yapılan deneyler, sadece %1'lik sentetik veri eklenmesiyle bile dramatik iyileşmeler sağlandığını gösterdi. Özellikle dilbilgisi testlerinde performans %20'den %70'e çıktı. Bu bulgular, AI modellerinin dil yeteneklerindeki tutarsızlıkların büyük ölçüde veri eksikliğinden kaynaklandığını ve hedefli müdahalelerle giderilebileceğini ortaya koyuyor. Çalışma, gelecekteki AI geliştirmelerinde veri kalitesinin önemini vurguluyor.

Büyük dil modelleri, trilyonlarca kelimelik verilerle eğitildikten sonra bile dilbilgisi konusunda oldukça tutarsız bir performans sergiliyor. Bazı dil yapılarını mükemmele yakın öğrenirken, diğerlerinde tesadüfen doğru cevap verme olasılığından bile daha düşük başarı gösteriyorlar.

Bu ilginç durumun nedenini araştıran bilim insanları, sorunun yapay zeka mimarisinden mi yoksa eğitim verilerindeki eksikliklerden mi kaynaklandığını merak ediyordu. Araştırmacılar bu soruya yanıt bulmak için GPT-2 Small modeliyle deneyler gerçekleştirdi.

124 milyon parametreli modeli 100 milyon kelimelik bir veri setiyle eğiten araştırmacılar, sonrasında belirli dilbilgisi yapılarına odaklanan sentetik verilerin sadece %1'ini ekledi. Sonuçlar oldukça çarpıcıydı.

Bu minimal müdahale, 9 zayıf performans alanından 8'inde önemli iyileşmeler sağladı. En dikkat çekici örnek, 'only_npi_scope' adlı dilbilgisi testinde yaşandı - model başarısı %20,9'dan %69,4'e fırladı.

Çalışmanın sonuçları, dil modellerindeki bu tutarsızlıkların büyük ölçüde veri eksikliğinden kaynaklandığını gösteriyor. Bu bulgu, gelecekteki AI geliştirmelerinde sadece veri miktarının değil, aynı zamanda veri çeşitliliğinin de kritik önemde olduğunu ortaya koyuyor. Hedefli veri ekleme stratejileriyle, mevcut modellerin dil yetenekleri önemli ölçüde geliştirilebilir.