Yapay zeka araştırmacıları, konuşma tabanlı dil modellerinin doğruluğunu artırmak için MoshiRAG adlı yenilikçi bir sistem geliştirdi. Bu sistem, gerçek zamanlı konuşma sırasında dış bilgi kaynaklarından otomatik olarak yararlanabilen ilk tam çift yönlü konuşma modeli özelliği taşıyor.

MoshiRAG'in temel yeniliği, asenkron bilgi alma yaklaşımında yatıyor. Sistem, kullanıcının sorusunu analiz ederek bilgi gerektiren durumları tespit ediyor ve yanıt vermeye başladıktan sonra, konuşmanın doğal akışını bozmadan arka planda güvenilir kaynaklardan bilgi topluyor. Bu süreç, insanların konuşmaya başlama ile asıl bilgiyi verme arasındaki doğal zaman farkından yararlanıyor.

Geleneksel yaklaşımlar, modelin boyutunu büyüterek doğruluğu artırmaya odaklanıyordu ancak bu durum gerçek zamanlı kullanımı maliyetli hale getiriyordu. MoshiRAG ise kompakt bir arayüzle güçlü bilgi kaynaklarını birleştiren modüler bir yaklaşım benimsiyor.

Bu teknoloji, kesintiler, duraklamalar ve ara tepkileri doğal şekilde işleyebilen tam çift yönlü konuşma yetenekleriyle öne çıkıyor. Araştırmacılar, sistemin hem konuşmanın doğallığını koruduğunu hem de faktüel doğruluğu önemli ölçüde artırdığını bildiriyor.