Yapay zeka alanında çığır açan bir gelişme yaşanırken, araştırmacılar EgoSound adlı ilk egosantrik ses anlama kıyaslama sistemini tanıttı. Bu yenilikçi platform, çok modlu büyük dil modellerinin birinci şahıs perspektifinden çekilen videolardaki ses anlama yeteneklerini sistematik olarak değerlendiriyor.
İnsan algısının doğası gereği çok duyulu olduğu ve görme, işitme ile hareket algısını birleştirerek dünyayı anlamlandırdığı bilinen bir gerçek. Bu modlar arasında ses, özellikle egosantrik ortamlarda mekânsal düzen, ekran dışında yaşanan olaylar ve nedensel etkileşimler hakkında vazgeçilmez ipuçları sunuyor. EgoSound tam da bu ihtiyacı karşılamak için geliştirildi.
Ego4D ve EgoBlind veri setlerini birleştiren platform, hem görme yetisine sahip hem de sese bağımlı deneyimleri kapsıyor. Sistem, içsel ses algısından mekânsal konumlandırmaya, nedensel çıkarımdan çapraz modal akıl yürütmeye kadar uzanan yedi görev kategorisi tanımlıyor.
Çok aşamalı otomatik üretim süreci kullanılarak oluşturulan EgoSound, 900 video boyunca 7315 doğrulanmış soru-cevap çifti içeriyor. Bu kapsamlı veri seti, yapay zekanın gerçek dünya koşullarında ses anlama kapasitelerini test etmek için kritik bir kaynak oluşturuyor.