ELLSA: İnsan Gibi Aynı Anda Dinleyen, Gören ve Konuşan Yapay Zeka Modeli

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, insan etkileşiminin doğasını taklit eden devrim niteliğinde bir yapay zeka modeli geliştirdi. ELLSA adı verilen bu sistem, insanlar gibi aynı anda hem algılama hem de tepki verme yeteneğine sahip ilk model olma özelliği taşıyor. İnsanların nasıl dinlerken baktığını, konuşurken hareket ettiğini ve kesintilere doğal olarak adapte olduğunu gözlemleyen bilim insanları, bu davranışları tek bir mimaride birleştirmeyi başardı. Model, görsel, metinsel, sesli ve eylem verilerini eş zamanlı olarak işleyebilen yenilikçi SA-MoE mimarisi kullanıyor. Bu teknoloji, her modaliteyi uzmanlaşmış bileşenlere yönlendirip birleşik bir dikkat mekanizması aracılığıyla harmanlıyor. Geliştirme, daha doğal insan-makine etkileşimleri için önemli bir adım teşkil ederken, gelecekte robotik, sanal asistanlar ve etkileşimli AI sistemlerinde geniş uygulama alanları bulabilir.

Stanford ve diğer önde gelen üniversitelerden araştırmacılar, insan davranışlarını taklit etme konusunda çığır açan bir yapay zeka modeli geliştirdi. ELLSA (End-to-end Listen, Look, Speak and Act) olarak adlandırılan bu sistem, bilinen ilk tam çift yönlü model olarak öne çıkıyor.

İnsan etkileşiminin temel özelliklerini analiz eden araştırma ekibi, insanların doğal olarak çoklu modaliteleri aynı anda kullandığını tespit etti. İnsanlar konuşurken jest yapar, dinlerken çevreyi gözlemler ve konuşma sıralarına kesintisiz adapte olurlar. Bu karmaşık davranış kalıplarını tek bir AI mimarisinde birleştirmek, şimdiye kadar aşılamayan teknik bir zorluktu.

ELLSA'nın kalbinde yer alan SA-MoE (Self-Attention Mixture-of-Experts) mimarisi, bu soruna yaratıcı bir çözüm sunuyor. Sistem, görme, konuşma, dinleme ve eylem modalitelerini uzmanlaşmış bileşenlere yönlendirirken, bunları birleşik bir dikkat mekanizması aracılığıyla harmanlıyor.

Bu gelişme, robotik asistanlar, sanal karakterler ve etkileşimli AI sistemleri için yeni kapılar açıyor. Özellikle müşteri hizmetleri, eğitim teknolojileri ve rehabilitasyon uygulamalarında devrimsel değişikliklere yol açabilir.

Etiketler

#yapay zeka #multimodal AI #insan-makine etkileşimi #robotik #derin öğrenme

Özgün Kaynak

End-to-end Listen, Look, Speak and Act

https://arxiv.org/abs/2510.16756

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.