Yapay Zeka Günlük Konuşma Dilini Anlayamıyor: Emoji ve Slang Büyük Problem

Araştırmacılar, doğal dil anlama sistemlerinin günlük konuşma dili karşısında nasıl başarısız olduğunu inceledi. ELECTRA ve RoBERTa gibi gelişmiş yapay zeka modellerinin slang, emoji ve güncel internet jargonuyla karşılaştığında ciddi performans kayıpları yaşadığı ortaya çıktı. Özellikle emojilerin büyük sorun oluşturduğu, sistemlerin bu karakterleri tanıyamadığı için metindeki anlamı tamamen kaybettiği görüldü. Slang ifadelerde ise 'gonna', 'homie' gibi kelimeler daha az sorun çıkarırken, 'no cap', 'deadass' gibi Z kuşağı terimleri modelleri şaşırtıyor. Bu bulgular, yapay zekanın gerçek hayattaki dil kullanımına adapte olması gerektiğini gösteriyor.

Stanford ve diğer üniversitelerden araştırmacılar, günümüzün popüler yapay zeka modellerinin sosyal medya dilini ne kadar kötü anladığını gösteren çarpıcı bir çalışma yayınladı. SNLI ve MultiNLI veri setleri üzerinde yapılan testlerde, hem küçük ölçekli ELECTRA (14 milyon parametre) hem de büyük RoBERTa modeli (355 milyon parametre) günlük dil karşısında zorlandı.

En büyük sorun emojilerden kaynaklanıyor. Araştırma, emoji içeren metinlerin %93,6'sında sistemin tanımadığı karakterler bulunduğunu ve her örnekte ortalama 2,91 adet bilinmeyen karakter olduğunu ortaya koydu. Sistem bu durumda metindeki anlamı tamamen kaybediyor çünkü emojiler henüz öğrenme aşamasında elimine ediliyor.

Slang kullanımında ise sonuçlar daha umut verici. 'Going to' yerine 'gonna', 'friend' yerine 'homie' gibi yaygın kısaltmalar maksimum %1,1 performans kaybına yol açıyor. Bunun nedeni bu kelimelerin zaten sistemin kelime dağarcığında bulunması.

Z kuşağının internet diline özgü 'no cap', 'deadass', 'tbh' gibi ifadeler ise farklı bir sorun yaratıyor. Bu kelimeler teknik olarak tanınıyor ama eğitim verilerinde olmadığı için sistem onlara yanlış anlamlar yüklüyor.