Stanford ve diğer önde gelen üniversitelerden araştırmacılar, insan davranışlarını taklit etme konusunda çığır açan bir yapay zeka modeli geliştirdi. ELLSA (End-to-end Listen, Look, Speak and Act) olarak adlandırılan bu sistem, bilinen ilk tam çift yönlü model olarak öne çıkıyor.

İnsan etkileşiminin temel özelliklerini analiz eden araştırma ekibi, insanların doğal olarak çoklu modaliteleri aynı anda kullandığını tespit etti. İnsanlar konuşurken jest yapar, dinlerken çevreyi gözlemler ve konuşma sıralarına kesintisiz adapte olurlar. Bu karmaşık davranış kalıplarını tek bir AI mimarisinde birleştirmek, şimdiye kadar aşılamayan teknik bir zorluktu.

ELLSA'nın kalbinde yer alan SA-MoE (Self-Attention Mixture-of-Experts) mimarisi, bu soruna yaratıcı bir çözüm sunuyor. Sistem, görme, konuşma, dinleme ve eylem modalitelerini uzmanlaşmış bileşenlere yönlendirirken, bunları birleşik bir dikkat mekanizması aracılığıyla harmanlıyor.

Bu gelişme, robotik asistanlar, sanal karakterler ve etkileşimli AI sistemleri için yeni kapılar açıyor. Özellikle müşteri hizmetleri, eğitim teknolojileri ve rehabilitasyon uygulamalarında devrimsel değişikliklere yol açabilir.