Yapay zeka alanında büyük dil modelleri günümüzde çok güçlü performans sergilerken, kaynak kısıtlı diller için aynı başarıyı gösteremiyor. Bu duruma çözüm arayan araştırmacılar, TriMix adlı yenilikçi bir yaklaşım geliştirdiler.

TriMix, test aşamasında üç farklı kaynaktan gelen bilgiyi dinamik olarak harmanlıyor. İlk kaynak, sürekli olarak eğitilmiş küçük modellerin belirli dildeki yetkinliği. İkincisi, yüksek kaynaklı dillerden aktarılan görev bilgisi. Üçüncüsü ise büyük modellerin ölçekleme avantajları.

Mevcut Proxy Tuning yönteminin temel sorunu, büyük modellerin düşük kaynaklı dillerdeki zayıf performansının, küçük uzmanlaşmış modellerin sahip olduğu değerli bilgiyi bastırması. TriMix bu problemi akıllı bir dengeleme mekanizmasıyla çözüyor.

Dört farklı model ailesi ve sekiz düşük kaynaklı dil üzerinde yapılan kapsamlı deneyler, TriMix'in hem tek model yaklaşımlarından hem de Proxy Tuning'den tutarlı şekilde daha iyi sonuçlar verdiğini ortaya koydu.

Bu yaklaşımın en büyük avantajları arasında veri ve hesaplama açısından verimli olması, düşük kaynaklı dil görev verilerine ihtiyaç duymaması ve sadece küçük model üzerinde sürekli ön eğitim gerektirmesi yer alıyor.