Yapay Zeka Modellerinin Gelişimini Ölçmenin Yeni Yöntemi Bulundu

Araştırmacılar, büyük dil modellerinin (LLM) farklı versiyonları arasındaki performans değişikliklerini daha hassas şekilde ölçebilen yeni bir yöntem geliştirdi. Klinik psikolojiden uyarlanan Güvenilir Değişim İndeksi (RCI) ile yapılan çalışma, genel başarı puanlarının yanıltıcı olabileceğini ortaya koydu. Llama 3-3.1 ve Qwen 2.5-3 model çiftleri üzerinde yapılan testlerde, modellerin bazı alanlarda iyileşirken diğerlerinde kötüleşebildiği gözlemlendi. Bu bulgular, yapay zeka modellerinin gelişimini değerlendirmede daha detaylı analizlerin önemini vurguluyor ve gelecekteki model geliştirme süreçlerine ışık tutuyor.

Büyük dil modellerinin (LLM) farklı versiyonları arasındaki performans değişikliklerini değerlendirmek için geliştirilen yeni bir yöntem, yapay zeka alanında önemli bulgulara ulaştı. Araştırmacılar, klinik psikolojide kullanılan Güvenilir Değişim İndeksi (RCI) metodunu LLM değerlendirmesine uyarlayarak, geleneksel ölçüm yöntemlerinin gözden kaçırdığı detayları ortaya çıkardı.

MMLU-Pro veri setinden 2.000 soru üzerinde yapılan çalışmada, Llama 3'ten 3.1'e geçişte 1.6 puanlık, Qwen 2.5'ten 3'e geçişte ise 2.8 puanlık genel iyileşme kaydedildi. Ancak derinlemesine analiz, bu rakamların arkasında karmaşık bir manzara olduğunu gösterdi.

Analiz edilebilir sorular arasında değişimin çift yönlü olduğu belirlendi. Llama modelinde soruların %34'ü iyileşirken %28'i kötüleşti. Qwen modelinde bu oranlar %47 iyileşme, %39 kötüleşme şeklinde gerçekleşti. İlginç olan nokta, zor sorularda iyileşme görülürken, kolay sorularda performans düşüşü yaşanması oldu.

Alan bazında incelemede, model ailelerine özgü farklılıklar tespit edildi. Llama fizik alanında gerilemesine rağmen başka alanlarda ilerleme kaydederken, Qwen hukuk alanında kayıplar yaşadı. Bu bulgular, yapay zeka modellerinin gelişiminin uniform olmadığını ve detaylı analizlerin gerekliliğini ortaya koyuyor.