Yapay zeka sistemlerinin adalet ve önyargı sorunları, teknoloji dünyasının en kritik meselelerinden biri haline geldi. Stanford Üniversitesi araştırmacılarının yeni çalışması, bu soruna farklı bir açıdan yaklaşarak büyük dil modellerinin olayları nasıl yorumladığını inceliyor.
Araştırma, sosyal psikolojinin 'attribution theory' (atıf teorisi) kavramını kullanarak, AI modellerinin başarı ve başarısızlık durumlarını nasıl açıkladığını analiz ediyor. Bu teori, insanların olayların nedenlerini içsel faktörlere (yetenek, çaba) mi yoksa dışsal faktörlere (şans, zorluk) mı bağladığını inceler.
Çalışmanın en dikkat çekici bulgusu, mevcut yapay zeka modellerinin farklı demografik gruplar için farklı açıklama kalıpları kullanmasıdır. Örneğin, belirli grupların başarısızlığını kişisel eksikliklere bağlarken, diğer grupların aynı durumunu dış koşullara atfetme eğilimi gösteriyorlar.
Bu yaklaşım, geleneksel önyargı tespit yöntemlerinden önemli ölçüde farklılaşıyor. Önceki çalışmalar çoğunlukla yüzeysel ilişkilere odaklanırken, bu araştırma AI sistemlerinin düşünce süreçlerindeki derin yapısal sorunları ortaya çıkarıyor. Bulgular, yapay zeka güvenliği ve adalet alanında yeni değerlendirme framework'lerinin geliştirilmesi gerektiğini işaret ediyor.