Yapay zeka alanında büyük dil modellerinin yaygınlaşmasıyla birlikte önemli bir sorun ortaya çıktı: bu modeller ağırlıklı olarak İngilizce ve birkaç yaygın dilde eğitildiği için Avrupa'nın birçok yerli dilinde yetersiz kalıyor. Bu soruna çözüm arayan bilim insanları, TildeOpen LLM adlı yenilikçi bir model geliştirdi.
30 milyar parametreyle çalışan bu açık kaynak model, 34 farklı Avrupa dilini destekleyerek dil adaletsizliğini ortadan kaldırmayı amaçlıyor. Özellikle kaynak bakımından fakir dillerde yaşanan performans düşüklüğü sorunu için tasarlanan sistem, veri dengesizliği problemini yaratıcı bir yöntemle çözüyor.
Araştırmacılar, veri kümelerini artırma tekniğini müfredat tabanlı bir eğitim programıyla birleştirdi. Bu yaklaşım, düzenli dil dağılımı ile doğal dil dağılımı arasında değişen bir eğitim programı uyguluyor. Sonuç olarak ortaya çıkan model, çok daha az bilgi işlem kaynağı kullanılmasına rağmen diğer çok dilli büyük dil modellerine kıyasla üstün performans sergiliyor.
Çoklu dil kıyaslama testlerinde TildeOpen, metin üretimi ve anlama becerilerinde mevcut açık kaynak modellerini geride bıraktı. Özellikle Baltık, Fin-Ugor ve Slav dil ailelerinde kayda değer başarılar elde edildi. İnsan değerlendirmelerinde ise dil hatalarında on kata varan azalma tespit edildi.