Yapay zeka yazarın stilini taklit edemiyor: Kişiselleştirmede büyük eksiklik

Stanford araştırmacıları, yapay zekanın belirli bir yazarın stilinde metin üretme yeteneğini bilimsel yöntemlerle test etti. Sonuçlar hayal kırıklığı yarattı: mevcut tüm kişiselleştirme yöntemleri, yazarlık doğrulama biliminin standartlarına göre başarısız oldu. Araştırma, yazarlık doğrulama teorisine dayanan yeni bir değerlendirme sistemi geliştirdi ve yapay zekanın gerçek anlamda bir yazarın stilini yakalayamadığını ortaya koydu. Bu bulgular, yapay zeka sistemlerinin kişiselleştirme iddialarının abartılı olduğunu gösteriyor.

Yapay zeka sistemlerinin belirli bir yazarın stilinde metin üretme yeteneği, bilim insanları tarafından ilk kez yazarlık doğrulama bilimi perspektifinden değerlendirildi. Sonuçlar, bu alandaki iddiaların gerçeklikten uzak olduğunu ortaya koydu.

Araştırmacılar, geleneksel değerlendirme yöntemlerinin yetersiz olduğunu belirterek, yazarlık doğrulama teorisine dayanan yeni bir ölçüm sistemi geliştirdi. Bu sistem üç farklı yaklaşımı birleştiriyor: eğitilmiş bir yazarlık doğrulama modeli olan LUAR, özellik eşleştirmeli yapay zeka değerlendirici ve klasik işlev kelimesi stilometrik analizi.

50 farklı yazar ve 1000 metin üretimi üzerinde yapılan testlerde, dört farklı kişiselleştirme yöntemi değerlendirildi. LUAR metriği, insan performansının üst sınırını 0.756, farklı yazarlar arası alt sınırı ise 0.626 olarak belirledi.

Şaşırtıcı şekilde, test edilen tüm yapay zeka yöntemleri bu alt sınırın bile altında kaldı ve 0.484 ile 0.508 arasında puan aldı. Bu durum, geleneksel ölçümlerle görülemeyen büyük bir 'yazarlık açığı'nı gözler önüne serdi.

Araştırmanın en çarpıcı bulgusu, üç farklı ölçüm yönteminin neredeyse sıfır korelasyon göstermesiydi. Bu durum, yapay zeka kişiselleştirmesinin değerlendirilmesinde tutarlı standartların eksikliğini ortaya koyuyor.