Stanford ve diğer üniversitelerden araştırmacılar, günümüzün popüler yapay zeka modellerinin sosyal medya dilini ne kadar kötü anladığını gösteren çarpıcı bir çalışma yayınladı. SNLI ve MultiNLI veri setleri üzerinde yapılan testlerde, hem küçük ölçekli ELECTRA (14 milyon parametre) hem de büyük RoBERTa modeli (355 milyon parametre) günlük dil karşısında zorlandı.
En büyük sorun emojilerden kaynaklanıyor. Araştırma, emoji içeren metinlerin %93,6'sında sistemin tanımadığı karakterler bulunduğunu ve her örnekte ortalama 2,91 adet bilinmeyen karakter olduğunu ortaya koydu. Sistem bu durumda metindeki anlamı tamamen kaybediyor çünkü emojiler henüz öğrenme aşamasında elimine ediliyor.
Slang kullanımında ise sonuçlar daha umut verici. 'Going to' yerine 'gonna', 'friend' yerine 'homie' gibi yaygın kısaltmalar maksimum %1,1 performans kaybına yol açıyor. Bunun nedeni bu kelimelerin zaten sistemin kelime dağarcığında bulunması.
Z kuşağının internet diline özgü 'no cap', 'deadass', 'tbh' gibi ifadeler ise farklı bir sorun yaratıyor. Bu kelimeler teknik olarak tanınıyor ama eğitim verilerinde olmadığı için sistem onlara yanlış anlamlar yüklüyor.