Yapay zeka teknolojisinin spor dünyasındaki potansiyeli, yeni bir araştırmayla test edildi. Bilim insanları, çok modlu büyük dil modellerinin (MLLM) otomatik hakem olarak görev yapabilme kabiliyetini ölçmek için RefereeBench adlı geniş kapsamlı bir değerlendirme sistemi oluşturdu.
Bu benzersiz test sistemi, 11 farklı spor dalından toplam 925 dikkatli seçilmiş video ve 6.475 soru-cevap çifti barındırıyor. RefereeBench, yapay zeka modellerinin beş temel hakemlik becerisini değerlendiriyor: faulün varlığını tespit etme, faul ve ceza türlerini sınıflandırma, bu kararların mantıksal gerekçelerini açıklama, oyuncular ve nesneleri algılama, ve zaman çizelgesini doğru şekilde belirleme.
Araştırma ekibi, tüm verileri insan uzmanlar tarafından etiketlettirerek, gerçek hakemlik mantığına uygun yüksek kaliteli açıklamalar sağladı. Test edilen en başarılı modeller olan Doubao-Seed-1.8 ve Gemini-3-Pro bile yaklaşık %60 doğruluk oranına ulaşabildi. Açık kaynaklı en güçlü model Qwen3-VL ise sadece %47 başarı gösterdi.
Bu bulgular, yapay zeka modellerinin genel video anlama konusunda yetenekli olmalarına rağmen, spor kuralları gibi özelleşmiş ve kurallara dayalı karar verme süreçlerinde henüz yeterli olmadığını gösteriyor. Sonuçlar, teknolojinin spor hakemliğinde tam anlamıyla kullanılabilmesi için daha fazla gelişime ihtiyaç duyulduğunu ortaya koyuyor.