Büyük dil modellerinin (LLM) farklı versiyonları arasındaki performans değişikliklerini değerlendirmek için geliştirilen yeni bir yöntem, yapay zeka alanında önemli bulgulara ulaştı. Araştırmacılar, klinik psikolojide kullanılan Güvenilir Değişim İndeksi (RCI) metodunu LLM değerlendirmesine uyarlayarak, geleneksel ölçüm yöntemlerinin gözden kaçırdığı detayları ortaya çıkardı.
MMLU-Pro veri setinden 2.000 soru üzerinde yapılan çalışmada, Llama 3'ten 3.1'e geçişte 1.6 puanlık, Qwen 2.5'ten 3'e geçişte ise 2.8 puanlık genel iyileşme kaydedildi. Ancak derinlemesine analiz, bu rakamların arkasında karmaşık bir manzara olduğunu gösterdi.
Analiz edilebilir sorular arasında değişimin çift yönlü olduğu belirlendi. Llama modelinde soruların %34'ü iyileşirken %28'i kötüleşti. Qwen modelinde bu oranlar %47 iyileşme, %39 kötüleşme şeklinde gerçekleşti. İlginç olan nokta, zor sorularda iyileşme görülürken, kolay sorularda performans düşüşü yaşanması oldu.
Alan bazında incelemede, model ailelerine özgü farklılıklar tespit edildi. Llama fizik alanında gerilemesine rağmen başka alanlarda ilerleme kaydederken, Qwen hukuk alanında kayıplar yaşadı. Bu bulgular, yapay zeka modellerinin gelişiminin uniform olmadığını ve detaylı analizlerin gerekliliğini ortaya koyuyor.