Yapay Zeka Modellerinin 'Yalan Dedektörü' Testinden Geçti: Sonuçlar Şaşırtıcı

Araştırmacılar, büyük dil modellerinin (LLM) güvenilirliğini ölçmek için klinik psikolojide kullanılan geçerlilik ölçeklerini uyguladı. 20 farklı yapay zeka modeli 524 maddelik bir teste tabi tutuldu ve altı farklı geçerlilik indeksi kullanılarak değerlendirildi. Çalışmanın bulguları, dört modelin tamamen geçersiz, iki modelin ise yükseltilmiş risk seviyesinde olduğunu gösterdi. Geçerli profil gösteren modeller, sorulara karşı duyarlı güven seviyeleri sergilerken, geçersiz profilli modeller bu özelliği göstermedi. Özellikle düşünce zinciri eğitimi alan modellerde iki farklı yanıt bozukluğu türü gözlemlendi.

Stanford ve diğer kurumlardan araştırmacılar, yapay zeka modellerinin güvenilirliğini ölçmek için klinik psikolojiden ödünç alınan yenilikçi bir yaklaşım geliştirdi. Klinik kişilik değerlendirmelerinde rutin olarak kullanılan geçerlilik ölçeklendirmesi, ilk kez büyük dil modellerine uygulandı.

Araştırmada PAI ve MMPI-3 testlerinden uyarlanan altı geçerlilik indeksi kullanıldı: L (hatalarda güveni koruma), K (hatalara bahis yapma), F (konsensüs onaylı maddeleri geri çekme), Fp (doğru yanıtları geri çekme), RBS (ters izleme) ve TRIN (sabit yanıtlama). Bu indeksler, modellerin kendi bilişsel süreçleri hakkında ne kadar doğru rapor verebildiğini ölçüyor.

524 maddelik test sonuçları, 20 farklı modelin performansında önemli farklılıklar ortaya koydu. Geçerli profil gösteren modeller, sorulara karşı duyarlı güven seviyeleri sergileyerek ortalama 0.18 korelasyon değeri elde etti. Buna karşın geçersiz profilli modeller -0.20 ortalama ile olumsuz korelasyon gösterdi.

Özellikle dikkat çeken bulgu, düşünce zinciri eğitimi geçiren modellerde iki zıt yanıt bozukluğu türünün ortaya çıkmasıydı. Araştırmacılar, indeks varyansının %94.6'sını açıklayan iki gizli boyut tespit etti. Bu çalışma, yapay zeka güvenilirliği için yeni bir değerlendirme standardı oluşturma potansiyeli taşıyor.