Günümüzde yapay zeka sistemleri metin tabanlı görevlerde etkileyici başarılar sergilerken, sesli komutlarda aynı performansı gösteremiyor. Araştırmacılar bu durumu 'modalite akıl yürütme açığı' olarak tanımlıyor ve sorunun kökeninde yatan nedenleri araştırıyor.
Yeni bir çalışmada ortaya çıkan bulgular, bu performans farkının iki temel nedeni olduğunu gösteriyor. İlki, yapay sinir ağlarının katmanları arasında meydana gelen 'temsili sapma' olarak adlandırılan durum. İkincisi ise uzun zincirli akıl yürütme süreçlerinde ortaya çıkan davranış sapmaları.
Bu sorunu çözmek için araştırmacılar TARS adlı yenilikçi bir framework geliştirdi. Sistem, pekiştirmeli öğrenme tekniklerini kullanarak sesli ve metinsel girdiler arasındaki performans farkını kapatmayı hedefliyor. TARS, asimetrik ödül tasarımı ile çalışan iki tamamlayıcı sinyal kullanıyor.
İlk sinyal 'temsil hizalaması', katman bazında gizli durum benzerliğini ölçüyor. İkinci sinyal ise 'davranış hizalaması' olarak adlandırılıyor ve üretilen çıktılar ile referans metinler arasındaki anlamsal tutarlılığı değerlendiriyor.
MMSU ve OBQA gibi zorlu akıl yürütme testlerinde yapılan deneyler, bu yaklaşımın modalite farkını önemli ölçüde azalttığını gösteriyor. Bu gelişme, sesli asistanların gelecekte daha akıllı ve tutarlı yanıtlar vermesinin yolunu açıyor.