Yapay zeka hakemlik yapabilir mi? RefereeBench ile büyük test

Araştırmacılar, çok modlu büyük dil modellerinin (MLLM) spor hakemliği yapma yeteneğini ölçmek için RefereeBench adlı kapsamlı bir test sistemi geliştirdi. 11 farklı spor dalından 925 video ve 6.475 soru-cevap çifti içeren bu benchmark, yapay zekanın kurallara dayalı karar verme becerisini değerlendiriyor. Test sonuçları, en gelişmiş modellerin bile sadece %60 civarında başarı gösterdiğini ortaya koydu. Bu çalışma, spor endüstrisinde artan teknoloji kullanımı ve VAR gibi sistemlerin yaygınlaşması bağlamında önem taşıyor. Yapay zeka modellerinin genel video anlama konusunda başarılı olmasına rağmen, özelleşmiş kural tabanlı değerlendirmelerde henüz yeterli seviyeye ulaşamadığı görülüyor.

Yapay zeka teknolojisinin spor dünyasındaki potansiyeli, yeni bir araştırmayla test edildi. Bilim insanları, çok modlu büyük dil modellerinin (MLLM) otomatik hakem olarak görev yapabilme kabiliyetini ölçmek için RefereeBench adlı geniş kapsamlı bir değerlendirme sistemi oluşturdu.

Bu benzersiz test sistemi, 11 farklı spor dalından toplam 925 dikkatli seçilmiş video ve 6.475 soru-cevap çifti barındırıyor. RefereeBench, yapay zeka modellerinin beş temel hakemlik becerisini değerlendiriyor: faulün varlığını tespit etme, faul ve ceza türlerini sınıflandırma, bu kararların mantıksal gerekçelerini açıklama, oyuncular ve nesneleri algılama, ve zaman çizelgesini doğru şekilde belirleme.

Araştırma ekibi, tüm verileri insan uzmanlar tarafından etiketlettirerek, gerçek hakemlik mantığına uygun yüksek kaliteli açıklamalar sağladı. Test edilen en başarılı modeller olan Doubao-Seed-1.8 ve Gemini-3-Pro bile yaklaşık %60 doğruluk oranına ulaşabildi. Açık kaynaklı en güçlü model Qwen3-VL ise sadece %47 başarı gösterdi.

Bu bulgular, yapay zeka modellerinin genel video anlama konusunda yetenekli olmalarına rağmen, spor kuralları gibi özelleşmiş ve kurallara dayalı karar verme süreçlerinde henüz yeterli olmadığını gösteriyor. Sonuçlar, teknolojinin spor hakemliğinde tam anlamıyla kullanılabilmesi için daha fazla gelişime ihtiyaç duyulduğunu ortaya koyuyor.