Stanford ve diğer önde gelen üniversitelerden araştırmacılar, yapay zeka ajanlarının gerçek dünya ortamlarında sorulara cevap verebilme yeteneklerini test etmek için BridgeEQA adlı yenilikçi bir benchmark sistemi geliştirdi.
Çalışma, altyapı denetimlerinin karmaşıklığından ilham alıyor. Köprü denetimleri gibi görevler, yapay zeka sistemlerinden hem detaylı gözlem hem de geniş çaplı uzamsal anlayış gerektiriyor. Bu özellikler, otonom robotlar ve sanal asistanlar için kritik yetenekler.
BridgeEQA sistemi, 200 gerçek köprü sahnesinden toplanan yaklaşık 10 bin profesyonel denetim fotoğrafı içeriyor. Her sahne için ortalama 48 görüntü bulunuyor ve toplamda 2200 açık uçlu soru-cevap çifti mevcut. Bu sorular, profesyonel köprü denetim raporlarına dayanıyor ve gerçek dünya uygulamalarını yansıtıyor.
Araştırmacılar ayrıca 'Görüntü Alıntı İlişkisi' adlı yeni bir değerlendirme ölçütü geliştirdi. Bu ölçüt, yapay zeka modellerinin cevaplarını destekleyen ilgili görüntüleri ne kadar iyi belirleyebildiğini test ediyor.
Mevcut en gelişmiş görü-dil modellerinin testlerde henüz sınırlı başarı göstermesi, bu alanın gelişim potansiyelini ortaya koyuyor. Bu çalışma, yapay zekanın gerçek dünya uygulamalarında daha güvenilir hale gelmesi için önemli bir adım teşkil ediyor.