Yapay zeka dil modelleri eğitiminde uzun süredir devam eden bir tartışma çözüme kavuşuyor. Araştırmacılar, Almanca gibi kaynak bakımından zengin diller için hangi eğitim stratejisinin daha etkili olduğunu araştırdı: büyük ve çeşitli veri setleriyle tek geçişlik eğitim mi, yoksa titizlikle filtrelenmiş küçük ama kaliteli veri setleriyle çok epochluk eğitim mi?
Almanya'daki araştırma ekibi, 500 milyon web dokümanı üzerinde hiyerarşik kalite filtreleri uygulayarak bu soruya yanıt aradı. Farklı model boyutlarında ve token bütçelerinde yapılan deneyler, şaşırtıcı sonuçlar ortaya çıkardı.
Sonuçlar, yüksek kaliteli verilerin tekrarlanmasının, daha büyük ama az filtrelenmiş veri setleriyle yapılan tek geçişlik eğitimden sürekli olarak daha iyi performans gösterdiğini ortaya koydu. Daha da dikkat çekici olan, bu performans farkının 7 epoch sonrasında bile devam etmesiydi.
Bu bulgular, dil modeli eğitiminde geleneksel yaklaşımları sorguluyor. Veri çeşitliliğinin her zaman en iyi seçenek olmadığı, bunun yerine kaliteli verinin tekrarının daha etkili olabileceği gösteriliyor.
Araştırma, özellikle sınırlı hesaplama kaynaklarıyla çalışan ekipler için pratik bir strateji sunuyor. İngilizce dışındaki dillerde model geliştiren araştırmacılar, artık veri toplama stratejilerini yeniden değerlendirebilir.