Gürültülü Web Ortamında Çoklu Kanıt Toplayan Yapay Zeka Test Platformu

16 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, yapay zeka sistemlerinin gerçek web ortamındaki karmaşık arama görevlerini ne kadar iyi yerine getirdiğini ölçmek için MERRIN adlı yeni bir test platformu geliştirdi. Bu platform, AI ajanlarının metin, görsel, ses ve video gibi farklı veri türlerini bir araya getirerek çok adımlı mantıksal çıkarımlar yapabilme yeteneklerini değerlendiriyor. Geleneksel test sistemlerinden farklı olarak, belirsiz doğal dil sorguları kullanıyor ve çelişkili bilgilerin bulunduğu gürültülü web ortamlarını simüle ediyor. GPT ve Gemini gibi güçlü kapalı kaynak modellerden açık kaynak alternatiflere kadar on farklı AI modeli üzerinde yapılan testler, mevcut sistemlerin gerçek dünya koşullarındaki sınırlarını ortaya çıkarıyor.

Stanford Üniversitesi araştırmacıları, yapay zeka sistemlerinin gerçek web ortamındaki karmaşık bilgi toplama görevlerini ne kadar etkili şekilde yerine getirdiğini ölçmek için MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments) adlı kapsamlı bir test platformu geliştirdi.

Bu yenilikçi platform, AI ajanlarının üç kritik beceriyi bir arada kullanabilme yeteneğini değerlendiriyor: ilgili veri türlerini tanımlama, çoklu formatta kanıt toplama ve gürültülü web kaynaklarından çok adımlı mantıksal çıkarımlar yapma. MERRIN'i önceki çalışmalardan ayıran temel özellikler arasında, açık veri türü ipuçları içermeyen doğal dil sorguları kullanması, video ve ses gibi az keşfedilmiş veri türlerini dahil etmesi ve web araması sırasında karmaşık, çelişkili bilgilerin toplanmasını gerektirmesi yer alıyor.

Araştırma ekibi, GPT-4-mini ve Gemini Flash/Pro gibi güçlü kapalı kaynak modellerden Qwen serisi gibi açık kaynak alternatiflere kadar on farklı AI modelini test etti. Bu kapsamlı değerlendirme, mevcut sistemlerin gerçek dünya koşullarındaki performans sınırlarını açığa çıkardı.

MERRIN platformu, özellikle belirsiz ve çok adımlı sorguların yaygın olduğu gerçek web araması senaryolarını simüle ediyor. Bu yaklaşım, AI sistemlerinin günlük kullanımda karşılaştıkları karmaşık durumları daha doğru bir şekilde değerlendirmek için kritik öneme sahip.

Etiketler

#yapay zeka #çoklu modal #web araması #veri madenciliği #makine öğrenmesi

Özgün Kaynak

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

https://arxiv.org/abs/2604.13418

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.