Yapay zeka alanında önemli bir yenilik ortaya çıktı: araştırmacılar, AI modellerinin ürettiği yanıtları değerlendirmek için devrimsel bir yaklaşım geliştirdi. Bu yeni yöntem, birden fazla yanıtı tek bir işlemde karşılaştırıp puanlayabilme kabiliyeti sunuyor.

Mevcut sistemlerde her bir yanıt ayrı ayrı değerlendirilmek zorunda, bu da her potansiyel cevap için ayrı bir hesaplama süreci gerektiriyor. Yeni yaklaşım ise çoklu yanıtları özel ayırıcı tokenlarla birleştirerek tek seferde işliyor ve skaler puanları üzerinden çapraz entropi uygulayarak doğrudan karşılaştırmalı değerlendirme yapabiliyor.

Bu yöntemin en çarpıcı avantajı performans artışı: N adet yanıt için N katına varan hızlanma ve hesaplama maliyetinde ciddi azalma sağlıyor. Bu, özellikle büyük ölçekli AI sistemlerinin test edilmesinde büyük zaman ve kaynak tasarrufu anlamına geliyor.

Araştırmacılar, mevcut ikili karşılaştırma benchmarklarının ötesinde çoklu yanıt değerlendirmesini mümkün kılmak için iki yeni test standardı oluşturdu. MR²Bench-Image, 8 farklı AI modelinden gelen görsel içerik yanıtlarının insan değerlendirmeleriyle karşılaştırıldığı bir veri seti içeriyor. MR²Bench-Video ise 94 bin kişinin video tabanlı soru-cevap çiftleri üzerindeki değerlendirmelerinden oluşan geniş kapsamlı bir benchmark sunuyor.

Bu gelişme, AI modellerinin daha hızlı ve verimli değerlendirilmesine olanak sağlayarak yapay zeka teknolojilerinin gelişim hızını artırabilir.