Günümüzde kullandığımız dil modelleri, metinleri işlemek için önce kelimeleri küçük parçalara böler. Bu 'tokenizasyon' adı verilen süreç, modellerin dili öğrenmesinin temelini oluşturur. Ancak yeni bir araştırma, bu kritik adımda önemli bir eksiklik olduğunu ortaya koyuyor: modeller kelimelerin nasıl seslendirildiğini hiç dikkate almıyor.

Araştırmacılar, bir dizi deney yaparak tokenizasyonun dil modellerinin fonolojik bilgiyi temsil etme yeteneğini nasıl etkilediğini inceledi. Fonoloji, dilin ses yapısını inceleyen bilim dalıdır ve kelimelerin kafiye, hece yapısı, vurgu gibi ses özelliklerini kapsar.

Çalışmanın bulguları oldukça çarpıcı: alt-kelime tabanlı tokenizasyon sistemleri, hem kafiye gibi yerel ses özelliklerinin hem de hece bölünmesi gibi genel yapısal özelliklerin kodlanmasını sistematik olarak zayıflatıyor. Bu durum, modellerin dilin ses boyutunu tam olarak kavrayamamasına neden oluyor.

Bu etkiyi ölçmek için araştırmacılar, STAD (hece-tokenizasyon hizalama mesafesi) adında yeni bir metrik geliştirdi. Bu ölçüm, bir modelin tokenizasyonu ile kelimelerin doğal hece sınırları arasındaki uyumsuzluğu hesaplıyor. Sonuçlar, uyumsuzluk arttıkça fonolojik temsil kalitesinin düştüğünü gösteriyor.

Soruna çözüm olarak, Uluslararası Fonetik Alfabe (IPA) tabanlı hafif bir ince ayar yöntemi önerildi. Bu yaklaşım, mevcut dil modellerine fonolojik farkındalık kazandırarak ses bilgisi temsilinde tutarlı iyileşmeler sağlıyor.