Yapay zeka sistemlerinin değerlendirilmesinde yaygın olarak kullanılan 'Büyük Dil Modeli Hakem' yaklaşımının önemli bir eksikliği giderildi. Bu yöntem, YZ çıktılarını değerlendirmek için başka bir yapay zekayı hakem olarak kullanıyor ancak verdiği genel puanların hangi unsurlara dayandığını anlamak zordu.
Stanford Üniversitesi araştırmacılarının geliştirdiği 'işlevsel parçalanma' yöntemi, değerlendirme sürecini şeffaflaştırmak için her çıktıyı anlamlı parçalara ayırıyor. Bu parçalar daha sonra değerlendirme kriterlerine göre analiz ediliyor ve hangi retorik işlevleri yerine getirdiği belirleniyor.
Evalet adlı interaktif sistem, bu yaklaşımı uygulamaya geçiriyor. Sistem, parça düzeyindeki işlevleri görsel olarak sunarak kullanıcıların birden fazla çıktıyı aynı anda inceleyebilmesini sağlıyor. Bu sayede hangi unsurların kullanıcı hedeflerini desteklediği veya engellediği net şekilde görülüyor.
On uzmanla yapılan kullanıcı çalışması çarpıcı sonuçlar verdi. Katılımcılar geleneksel genel puanları doğrulamakta zorlanırken, yeni yaklaşım sayesinde değerlendirme uyumsuzluklarını %48 daha fazla tespit edebildiler. Bu da YZ değerlendirmelerine olan güveni kalibre etmelerine yardımcı oldu.
Araştırma, yapay zeka sistemlerinin güvenilirliğini artırmak için değerlendirme süreçlerinin şeffaflaştırılmasının kritik önemde olduğunu gösteriyor.