Büyük dil modellerinin çok dilli yetenekleri gelişse de, kullanıcıların karşılaştığı önemli bir sorun var: modeller bazen istenilen dilde tutarlı yanıtlar veremiyor. Bu 'dil karışıklığı' problemi, özellikle çok dilli uygulamalarda ciddi kullanılabilirlik sorunlarına yol açıyor.
Araştırmacılar bu sorunu çözmek için Token Düzeyinde Politika Optimizasyonu (TLPO) adında yenilikçi bir yaklaşım geliştirdi. Mevcut DPO, ORPO ve GRPO gibi yöntemler tüm yanıt üzerinde işlem yaparken, bu durum modelin genel yeteneklerinde istenmeyen düşüşlere neden olabiliyor.
TLPO ise çok daha hassas bir strateji benimsiyor. Sistem, öncelikle dil hatalarının yaşanma olasılığı yüksek olan pozisyonları tespit ediyor. Ardından bu noktalarda alternatif kelime parçası seçeneklerini inceliyor ve özel olarak tasarlanmış bir hedef fonksiyon kullanarak politikayı güncelliyor.
Bu yaklaşımın en önemli avantajı, sadece sorunlu bölgelere müdahale etmesi. Geleneksel yöntemler tüm yanıtı etkileyerek modelin diğer yeteneklerini olumsuz etkileyebilirken, TLPO seçici müdahale yaparak bu riski minimize ediyor.
Yöntemin başarısı, yapay zeka modellerinin çok dilli ortamlardaki performansını artırarak, global ölçekte daha etkili dil teknolojilerinin geliştirilmesine katkı sağlayabilir.