Yapay Zeka Hakemlerinin Değerlendirmelerini Parçalara Ayıran Yeni Sistem

21 Nisan 2026, 07:00 3 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük dil modellerinin yapay zeka çıktılarını değerlendirirken kullandığı 'YZ-Hakem' yaklaşımının sorunlarına çözüm geliştirdi. Stanford Üniversitesi'nden bilim insanları, geleneksel yöntemlerin verdiği genel puanların hangi unsurlara dayandığını anlamayı zorlaştırdığını tespit etti. Geliştirdikleri 'işlevsel parçalanma' yöntemi, her çıktıyı kilit parçalara ayırıp bu parçaların değerlendirme kriterlerine göre hangi retorik işlevleri yerine getirdiğini analiz ediyor. Evalet adlı interaktif sistem, parça düzeyindeki işlevleri görselleştirerek kullanıcıların değerlendirmeleri incelemesini, puanlamasını ve karşılaştırmasını kolaylaştırıyor. On katılımcılı kullanıcı çalışması, sistemin değerlendirme uyumsuzluklarını tespit etmede %48 daha başarılı olduğunu gösterdi. Bu gelişme, yapay zeka değerlendirmelerinin şeffaflığını artırarak daha güvenilir YZ sistemlerine giden yolu açabilir.

Yapay zeka sistemlerinin değerlendirilmesinde yaygın olarak kullanılan 'Büyük Dil Modeli Hakem' yaklaşımının önemli bir eksikliği giderildi. Bu yöntem, YZ çıktılarını değerlendirmek için başka bir yapay zekayı hakem olarak kullanıyor ancak verdiği genel puanların hangi unsurlara dayandığını anlamak zordu.

Stanford Üniversitesi araştırmacılarının geliştirdiği 'işlevsel parçalanma' yöntemi, değerlendirme sürecini şeffaflaştırmak için her çıktıyı anlamlı parçalara ayırıyor. Bu parçalar daha sonra değerlendirme kriterlerine göre analiz ediliyor ve hangi retorik işlevleri yerine getirdiği belirleniyor.

Evalet adlı interaktif sistem, bu yaklaşımı uygulamaya geçiriyor. Sistem, parça düzeyindeki işlevleri görsel olarak sunarak kullanıcıların birden fazla çıktıyı aynı anda inceleyebilmesini sağlıyor. Bu sayede hangi unsurların kullanıcı hedeflerini desteklediği veya engellediği net şekilde görülüyor.

On uzmanla yapılan kullanıcı çalışması çarpıcı sonuçlar verdi. Katılımcılar geleneksel genel puanları doğrulamakta zorlanırken, yeni yaklaşım sayesinde değerlendirme uyumsuzluklarını %48 daha fazla tespit edebildiler. Bu da YZ değerlendirmelerine olan güveni kalibre etmelerine yardımcı oldu.

Araştırma, yapay zeka sistemlerinin güvenilirliğini artırmak için değerlendirme süreçlerinin şeffaflaştırılmasının kritik önemde olduğunu gösteriyor.

Etiketler

#yapay zeka #büyük dil modelleri #değerlendirme sistemleri #şeffaflık #evalet

Özgün Kaynak

Evalet: Evaluating Large Language Models through Functional Fragmentation

https://arxiv.org/abs/2509.11206

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.