Stanford Üniversitesi araştırmacıları, yapay zekanın görsel algı yeteneklerinde çığır açan bir yöntem geliştirdi. SENSE (Stereo OpEN Vocabulary SEmantic Segmentation) adlı sistem, ilk kez stereo görüş teknolojisini açık kelime dağarcığı ile birleştirerek, makinelerin çevreyi anlama biçimini köklü şekilde değiştiriyor.

Geleneksel görüntü segmentasyon sistemleri, önceden tanımlanmış nesne kategorileriyle sınırlı kalıyor ve tek görüntü kullanarak çalışıyor. SENSE ise insan görme sistemine benzer şekilde, aynı sahnenin iki farklı açıdan çekilmiş görüntülerini eşzamanlı analiz ediyor. Bu yaklaşım, nesnelerin uzamsal konumları hakkında geometrik ipuçları sağlayarak, özellikle engellenmiş alanlar ve nesne kenarlarında çok daha hassas sonuçlar üretiyor.

Sistemin en önemli özelliği, doğal dille verilen herhangi bir tanımı anlayabilmesi. Önceden programlanmış kategoriler yerine, kullanıcılar 'mavi araba' ya da 'çiçekli vazo' gibi açıklamalarla nesneleri tanımlatabiliyor. PhraseStereo veri seti üzerinde yapılan testlerde, SENSE temel yönteme kıyasla %2.9, en iyi rakip sisteme göre %0.76 oranında daha yüksek doğruluk gösterdi.

Bu teknoloji, otonom araçların trafikteki nesneleri daha güvenli tanıması, robotların karmaşık ortamlarda navigasyon yapması ve artırılmış gerçeklik uygulamalarının daha gerçekçi etkileşimler sunması gibi alanlarda devrim yaratma potansiyeli taşıyor.