EgoSound: Yapay Zeka İçin İlk Kişi Bakış Açısı Ses Anlama Kıyaslama Sistemi

Araştırmacılar, yapay zekanın egosantrik videolarda ses anlama yeteneğini değerlendiren ilk kapsamlı kıyaslama sistemi olan EgoSound'u geliştirdi. İnsanların görme, işitme ve hareket algısını birleştirerek dünyayı anlamlandırdığı gerçeğinden yola çıkan sistem, özellikle birinci şahıs görüş açısından çekilen videolarda sesin önemini vurguluyor. EgoSound, mekânsal düzen hakkında ipuçları, ekran dışı olaylar ve nedensel etkileşimler gibi ses yoluyla elde edilen kritik bilgileri analiz ediyor. 900 video üzerinde 7315 doğrulanmış soru-cevap çifti içeren bu benchmark, ses algısından mekânsal konumlandırmaya, nedensel çıkarımdan çapraz modal akıl yürütmeye kadar yedi farklı görev kategorisini kapsıyor. Çok aşamalı otomatik üretim süreciyle oluşturulan sistem, çok modlu büyük dil modellerinin gerçek dünya koşullarında ses anlama kapasitelerini sistematik olarak test etmeyi mümkün kılıyor.

Yapay zeka alanında çığır açan bir gelişme yaşanırken, araştırmacılar EgoSound adlı ilk egosantrik ses anlama kıyaslama sistemini tanıttı. Bu yenilikçi platform, çok modlu büyük dil modellerinin birinci şahıs perspektifinden çekilen videolardaki ses anlama yeteneklerini sistematik olarak değerlendiriyor.

İnsan algısının doğası gereği çok duyulu olduğu ve görme, işitme ile hareket algısını birleştirerek dünyayı anlamlandırdığı bilinen bir gerçek. Bu modlar arasında ses, özellikle egosantrik ortamlarda mekânsal düzen, ekran dışında yaşanan olaylar ve nedensel etkileşimler hakkında vazgeçilmez ipuçları sunuyor. EgoSound tam da bu ihtiyacı karşılamak için geliştirildi.

Ego4D ve EgoBlind veri setlerini birleştiren platform, hem görme yetisine sahip hem de sese bağımlı deneyimleri kapsıyor. Sistem, içsel ses algısından mekânsal konumlandırmaya, nedensel çıkarımdan çapraz modal akıl yürütmeye kadar uzanan yedi görev kategorisi tanımlıyor.

Çok aşamalı otomatik üretim süreci kullanılarak oluşturulan EgoSound, 900 video boyunca 7315 doğrulanmış soru-cevap çifti içeriyor. Bu kapsamlı veri seti, yapay zekanın gerçek dünya koşullarında ses anlama kapasitelerini test etmek için kritik bir kaynak oluşturuyor.