Yapay zeka asistanları gerçek zamanlı konuşma için yeni sistemi öğreniyor

Araştırmacılar, yapay zeka destekli sesli asistanların insanlarla daha doğal konuşabilmesi için FastTurn adlı yeni bir sistem geliştirdi. Mevcut sistemler ya kullanıcının konuşmasının bitmesini bekliyor ya da gecikmeli yanıtlar veriyor. FastTurn ise akustik sinyallerle anlam bilgisini birleştirerek, asistanın ne zaman konuşacağına, sessiz kalacağına veya araya gireceğine gerçek zamanlı karar vermesini sağlıyor. Sistem, özellikle gürültülü ortamlarda ve konuşmaların üst üste geldiği durumlarda bile düşük gecikmeyle çalışabiliyor. Bu gelişme, sesli asistanların insan benzeri etkileşim kurabilmesi için önemli bir adım sayılıyor.

Yapay zeka destekli sesli asistanlar, şimdiye kadar çoğunlukla sıra tabanlı iletişim kullanıyordu - yani kullanıcı konuşur, asistan dinler, sonra yanıt verir. Ancak gerçek insan konuşmaları böyle işlemez. İnsanlar birbirini bölebilir, ara verebilir ve aynı anda konuşabilir.

Araştırmacılar bu sorunu çözmek için FastTurn adlı yeni bir çerçeve geliştirdi. Mevcut tam çift yönlü sistemler ya sadece ses aktivitesi ipuçlarına dayanıyor (anlam anlamadan), ya da otomatik konuşma tanıma modüllerine güveniyor (bu da gecikme yaratıyor ve gürültüde bozuluyor).

FastTurn'ün yenilikçi yanı, akışkan CTC kod çözme teknolojisini akustik özelliklerle birleştirmesi. Bu sayede sistem, konuşmanın tamamını beklemeden kısmi gözlemlerden erken kararlar alabiliyor, aynı zamanda anlamsal ipuçlarını da koruyor.

Sistem özellikle gürültülü ortamlarda ve konuşmaların üst üste geldiği durumlarda bile düşük gecikmeyle çalışabiliyor. Araştırmacılar ayrıca gerçek insan diyaloglarına dayanan yeni bir test seti de yayınladı, çünkü mevcut veri setleri gerçekçi etkileşim dinamiklerini yakalayamıyordu.

Bu gelişme, sesli asistanların insanlarla daha doğal ve akıcı konuşabilmesi için önemli bir adım olarak değerlendiriliyor.