Büyük dil modellerinin başarısı büyük ölçüde eğitim verilerinin kompozisyonuna bağlı. ChatGPT ve benzeri modeller milyarlarca parametre içerirken, hangi veri türlerinin hangi oranlarda kullanılacağı performansı doğrudan etkiliyor.

Yeni araştırma, veri karıştırma optimizasyonunu iki seviyeli matematiksel bir problem olarak formüle ediyor. Bu yaklaşım, farklı alanlardan gelen verilerin - haber metinleri, bilimsel makaleler, sosyal medya içerikleri - optimal şekilde birleştirilmesini sağlıyor.

Çalışma, literatürde dağınık halde bulunan veri karıştırma yöntemlerini sistematik bir taksonomide topluyor. Araştırmacılar, sınırlı hesaplama bütçesiyle maksimum verimlilik elde etmenin yollarını inceliyor.

Bu bulgular özellikle kaynak kısıtlı ortamlarda çalışan araştırmacılar için değerli. Doğru veri karışımı stratejisi kullanarak, daha az kaynak harcarken daha iyi performans gösteren modeller geliştirmek mümkün hale geliyor.

Araştırma, yapay zeka alanında veri verimliliği konusundaki artan ilgiye yanıt veriyor ve gelecekteki model geliştirme süreçlerine rehberlik edecek.