Teknoloji & Yapay Zeka

Avrupa Dilleri için Yeni Yapay Zeka Modeli Dil Adaletsizliğine Çözüm Getiriyor

Büyük dil modelleri genellikle İngilizce ve birkaç yaygın dilde eğitildiği için Avrupa'nın birçok dilinde yetersiz kalıyor. Araştırmacılar bu soruna çözüm bulmak için TildeOpen LLM adlı 30 milyar parametreli yeni bir model geliştirdi. Model, 34 farklı Avrupa dilini destekleyerek dil adaletsizliğini azaltmayı hedefliyor. Özellikle kaynak açısından fakir diller için geliştirilmiş bu sistem, veri dengesizliği sorununu çözmek için özel bir müfredat tabanlı eğitim yaklaşımı kullanıyor. Baltık, Fin-Ugor ve Slav dil ailelerinde önceki modellerden çok daha iyi sonuçlar veren TildeOpen, çok daha az bilgi işlem kaynağıyla eğitilmesine rağmen mevcut açık kaynak modellerini geride bırakıyor. İnsan değerlendirmelerinde dil hatalarında on kata varan azalma tespit edildi.

Yapay zeka alanında büyük dil modellerinin yaygınlaşmasıyla birlikte önemli bir sorun ortaya çıktı: bu modeller ağırlıklı olarak İngilizce ve birkaç yaygın dilde eğitildiği için Avrupa'nın birçok yerli dilinde yetersiz kalıyor. Bu soruna çözüm arayan bilim insanları, TildeOpen LLM adlı yenilikçi bir model geliştirdi.

30 milyar parametreyle çalışan bu açık kaynak model, 34 farklı Avrupa dilini destekleyerek dil adaletsizliğini ortadan kaldırmayı amaçlıyor. Özellikle kaynak bakımından fakir dillerde yaşanan performans düşüklüğü sorunu için tasarlanan sistem, veri dengesizliği problemini yaratıcı bir yöntemle çözüyor.

Araştırmacılar, veri kümelerini artırma tekniğini müfredat tabanlı bir eğitim programıyla birleştirdi. Bu yaklaşım, düzenli dil dağılımı ile doğal dil dağılımı arasında değişen bir eğitim programı uyguluyor. Sonuç olarak ortaya çıkan model, çok daha az bilgi işlem kaynağı kullanılmasına rağmen diğer çok dilli büyük dil modellerine kıyasla üstün performans sergiliyor.

Çoklu dil kıyaslama testlerinde TildeOpen, metin üretimi ve anlama becerilerinde mevcut açık kaynak modellerini geride bıraktı. Özellikle Baltık, Fin-Ugor ve Slav dil ailelerinde kayda değer başarılar elde edildi. İnsan değerlendirmelerinde ise dil hatalarında on kata varan azalma tespit edildi.

Özgün Kaynak
arXiv (Dilbilim & NLP)
TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.