Yapay zeka destekli sesli asistanlar, şimdiye kadar çoğunlukla sıra tabanlı iletişim kullanıyordu - yani kullanıcı konuşur, asistan dinler, sonra yanıt verir. Ancak gerçek insan konuşmaları böyle işlemez. İnsanlar birbirini bölebilir, ara verebilir ve aynı anda konuşabilir.
Araştırmacılar bu sorunu çözmek için FastTurn adlı yeni bir çerçeve geliştirdi. Mevcut tam çift yönlü sistemler ya sadece ses aktivitesi ipuçlarına dayanıyor (anlam anlamadan), ya da otomatik konuşma tanıma modüllerine güveniyor (bu da gecikme yaratıyor ve gürültüde bozuluyor).
FastTurn'ün yenilikçi yanı, akışkan CTC kod çözme teknolojisini akustik özelliklerle birleştirmesi. Bu sayede sistem, konuşmanın tamamını beklemeden kısmi gözlemlerden erken kararlar alabiliyor, aynı zamanda anlamsal ipuçlarını da koruyor.
Sistem özellikle gürültülü ortamlarda ve konuşmaların üst üste geldiği durumlarda bile düşük gecikmeyle çalışabiliyor. Araştırmacılar ayrıca gerçek insan diyaloglarına dayanan yeni bir test seti de yayınladı, çünkü mevcut veri setleri gerçekçi etkileşim dinamiklerini yakalayamıyordu.
Bu gelişme, sesli asistanların insanlarla daha doğal ve akıcı konuşabilmesi için önemli bir adım olarak değerlendiriliyor.