Yapay Zeka Sesli Komutlarda Neden Zorlanıyor? Çözüm Yolda

Yapay zeka sistemleri metin üzerinde başarılı sonuçlar verirken, aynı soruyu sesli olarak sorduğumuzda performansları düşüyor. MIT ve diğer kuruluşlardan araştırmacılar, bu 'modalite akıl yürütme açığı' olarak adlandırılan sorunu çözmek için TARS adlı yeni bir framework geliştirdi. Sistem, pekiştirmeli öğrenme kullanarak sesli ve metinsel girdiler arasındaki performans farkını kapatmaya odaklanıyor. Bu gelişme, sesli asistanların daha akıllı ve tutarlı yanıtlar vermesinin önünü açabilir.

Günümüzde yapay zeka sistemleri metin tabanlı görevlerde etkileyici başarılar sergilerken, sesli komutlarda aynı performansı gösteremiyor. Araştırmacılar bu durumu 'modalite akıl yürütme açığı' olarak tanımlıyor ve sorunun kökeninde yatan nedenleri araştırıyor.

Yeni bir çalışmada ortaya çıkan bulgular, bu performans farkının iki temel nedeni olduğunu gösteriyor. İlki, yapay sinir ağlarının katmanları arasında meydana gelen 'temsili sapma' olarak adlandırılan durum. İkincisi ise uzun zincirli akıl yürütme süreçlerinde ortaya çıkan davranış sapmaları.

Bu sorunu çözmek için araştırmacılar TARS adlı yenilikçi bir framework geliştirdi. Sistem, pekiştirmeli öğrenme tekniklerini kullanarak sesli ve metinsel girdiler arasındaki performans farkını kapatmayı hedefliyor. TARS, asimetrik ödül tasarımı ile çalışan iki tamamlayıcı sinyal kullanıyor.

İlk sinyal 'temsil hizalaması', katman bazında gizli durum benzerliğini ölçüyor. İkinci sinyal ise 'davranış hizalaması' olarak adlandırılıyor ve üretilen çıktılar ile referans metinler arasındaki anlamsal tutarlılığı değerlendiriyor.

MMSU ve OBQA gibi zorlu akıl yürütme testlerinde yapılan deneyler, bu yaklaşımın modalite farkını önemli ölçüde azalttığını gösteriyor. Bu gelişme, sesli asistanların gelecekte daha akıllı ve tutarlı yanıtlar vermesinin yolunu açıyor.