Yapay zeka sistemlerinin belirli bir yazarın stilinde metin üretme yeteneği, bilim insanları tarafından ilk kez yazarlık doğrulama bilimi perspektifinden değerlendirildi. Sonuçlar, bu alandaki iddiaların gerçeklikten uzak olduğunu ortaya koydu.
Araştırmacılar, geleneksel değerlendirme yöntemlerinin yetersiz olduğunu belirterek, yazarlık doğrulama teorisine dayanan yeni bir ölçüm sistemi geliştirdi. Bu sistem üç farklı yaklaşımı birleştiriyor: eğitilmiş bir yazarlık doğrulama modeli olan LUAR, özellik eşleştirmeli yapay zeka değerlendirici ve klasik işlev kelimesi stilometrik analizi.
50 farklı yazar ve 1000 metin üretimi üzerinde yapılan testlerde, dört farklı kişiselleştirme yöntemi değerlendirildi. LUAR metriği, insan performansının üst sınırını 0.756, farklı yazarlar arası alt sınırı ise 0.626 olarak belirledi.
Şaşırtıcı şekilde, test edilen tüm yapay zeka yöntemleri bu alt sınırın bile altında kaldı ve 0.484 ile 0.508 arasında puan aldı. Bu durum, geleneksel ölçümlerle görülemeyen büyük bir 'yazarlık açığı'nı gözler önüne serdi.
Araştırmanın en çarpıcı bulgusu, üç farklı ölçüm yönteminin neredeyse sıfır korelasyon göstermesiydi. Bu durum, yapay zeka kişiselleştirmesinin değerlendirilmesinde tutarlı standartların eksikliğini ortaya koyuyor.