Stanford Üniversitesi araştırmacıları, yapay zeka sistemlerinin gerçek web ortamındaki karmaşık bilgi toplama görevlerini ne kadar etkili şekilde yerine getirdiğini ölçmek için MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments) adlı kapsamlı bir test platformu geliştirdi.
Bu yenilikçi platform, AI ajanlarının üç kritik beceriyi bir arada kullanabilme yeteneğini değerlendiriyor: ilgili veri türlerini tanımlama, çoklu formatta kanıt toplama ve gürültülü web kaynaklarından çok adımlı mantıksal çıkarımlar yapma. MERRIN'i önceki çalışmalardan ayıran temel özellikler arasında, açık veri türü ipuçları içermeyen doğal dil sorguları kullanması, video ve ses gibi az keşfedilmiş veri türlerini dahil etmesi ve web araması sırasında karmaşık, çelişkili bilgilerin toplanmasını gerektirmesi yer alıyor.
Araştırma ekibi, GPT-4-mini ve Gemini Flash/Pro gibi güçlü kapalı kaynak modellerden Qwen serisi gibi açık kaynak alternatiflere kadar on farklı AI modelini test etti. Bu kapsamlı değerlendirme, mevcut sistemlerin gerçek dünya koşullarındaki performans sınırlarını açığa çıkardı.
MERRIN platformu, özellikle belirsiz ve çok adımlı sorguların yaygın olduğu gerçek web araması senaryolarını simüle ediyor. Bu yaklaşım, AI sistemlerinin günlük kullanımda karşılaştıkları karmaşık durumları daha doğru bir şekilde değerlendirmek için kritik öneme sahip.