Yapay zekanın eğitim alanındaki kullanımı hızla artarken, bu sistemlerin öğrenci cevaplarını ne kadar doğru değerlendirdiği kritik bir soru haline geliyor. Yeni bir araştırma, büyük dil modellerinin otomatik not verme yeteneklerini analiz etmek için psikolojik test teorisinden ilham alan yenilikçi bir yaklaşım sunuyor.

Araştırmacılar, geleneksel değerlendirme metriklerinin yetersiz kaldığı noktaları tespit etti. Makro-F1 ve Cohen's kappa gibi genel ölçümler, modellerin farklı zorluktaki sorularda nasıl performans gösterdiğini açıklamıyor. Bu eksikliği gidermek için Item Response Theory (IRT) tabanlı bir framework geliştirdiler.

17 farklı açık kaynak dil modeli üzerinde yapılan testler şaşırtıcı sonuçlar ortaya çıkardı. Genel başarı oranları benzer olan modeller, zor sorularda çok farklı performanslar sergiledi. Bazı modellerin zorluk arttıkça değerlendirme doğruluğu keskin bir şekilde düşerken, diğerleri daha istikrarlı performans gösterdi.

Bu bulgular, eğitim kurumlarının yapay zeka tabanlı değerlendirme sistemlerini seçerken sadece genel performansa bakmaması gerektiğini gösteriyor. Hangi tür soruları daha iyi değerlendirdiğini bilmek, bu teknolojilerin etkili kullanımı için hayati önem taşıyor.