Stanford ve diğer kurumlardan araştırmacılar, yapay zeka modellerinin güvenilirliğini ölçmek için klinik psikolojiden ödünç alınan yenilikçi bir yaklaşım geliştirdi. Klinik kişilik değerlendirmelerinde rutin olarak kullanılan geçerlilik ölçeklendirmesi, ilk kez büyük dil modellerine uygulandı.
Araştırmada PAI ve MMPI-3 testlerinden uyarlanan altı geçerlilik indeksi kullanıldı: L (hatalarda güveni koruma), K (hatalara bahis yapma), F (konsensüs onaylı maddeleri geri çekme), Fp (doğru yanıtları geri çekme), RBS (ters izleme) ve TRIN (sabit yanıtlama). Bu indeksler, modellerin kendi bilişsel süreçleri hakkında ne kadar doğru rapor verebildiğini ölçüyor.
524 maddelik test sonuçları, 20 farklı modelin performansında önemli farklılıklar ortaya koydu. Geçerli profil gösteren modeller, sorulara karşı duyarlı güven seviyeleri sergileyerek ortalama 0.18 korelasyon değeri elde etti. Buna karşın geçersiz profilli modeller -0.20 ortalama ile olumsuz korelasyon gösterdi.
Özellikle dikkat çeken bulgu, düşünce zinciri eğitimi geçiren modellerde iki zıt yanıt bozukluğu türünün ortaya çıkmasıydı. Araştırmacılar, indeks varyansının %94.6'sını açıklayan iki gizli boyut tespit etti. Bu çalışma, yapay zeka güvenilirliği için yeni bir değerlendirme standardı oluşturma potansiyeli taşıyor.