Yapay Zeka Öğretmenler Hangi Soruları Doğru Değerlendiriyor?

Araştırmacılar, büyük dil modellerinin kısa cevaplı soruları ne kadar iyi değerlendirdiğini ölçmek için yeni bir yöntem geliştirdi. Çalışma, benzer genel performans gösteren yapay zeka modellerinin aslında farklı zorluktaki sorularda çok farklı başarı oranları sergilediğini ortaya koyuyor. Bu keşif, eğitimde yapay zeka kullanımı için kritik önem taşıyor.

Yapay zekanın eğitim alanındaki kullanımı hızla artarken, bu sistemlerin öğrenci cevaplarını ne kadar doğru değerlendirdiği kritik bir soru haline geliyor. Yeni bir araştırma, büyük dil modellerinin otomatik not verme yeteneklerini analiz etmek için psikolojik test teorisinden ilham alan yenilikçi bir yaklaşım sunuyor.

Araştırmacılar, geleneksel değerlendirme metriklerinin yetersiz kaldığı noktaları tespit etti. Makro-F1 ve Cohen's kappa gibi genel ölçümler, modellerin farklı zorluktaki sorularda nasıl performans gösterdiğini açıklamıyor. Bu eksikliği gidermek için Item Response Theory (IRT) tabanlı bir framework geliştirdiler.

17 farklı açık kaynak dil modeli üzerinde yapılan testler şaşırtıcı sonuçlar ortaya çıkardı. Genel başarı oranları benzer olan modeller, zor sorularda çok farklı performanslar sergiledi. Bazı modellerin zorluk arttıkça değerlendirme doğruluğu keskin bir şekilde düşerken, diğerleri daha istikrarlı performans gösterdi.

Bu bulgular, eğitim kurumlarının yapay zeka tabanlı değerlendirme sistemlerini seçerken sadece genel performansa bakmaması gerektiğini gösteriyor. Hangi tür soruları daha iyi değerlendirdiğini bilmek, bu teknolojilerin etkili kullanımı için hayati önem taşıyor.