Yapay zeka alanında ses ve dil işlemeyi birleştiren büyük modeller, müzik analizi, konuşma tanıma ve çeşitli ses olaylarını anlama konularında önemli ilerlemeler kaydetmiştir. Ancak bu sistemler beklenmedik bir sorunla karşılaşmaktadır: zamansal düzgünleme önyargısı.
Bu önyargı, modellerin kısa süreli ve geçici akustik ipuçlarını göz ardı ederek, daha uzun süren ve istikrarlı ses özelliklerine odaklanması anlamına gelir. Örneğin, bir müzik parçasındaki ani tempo değişiklikleri veya konuşmadaki vurgular gözden kaçabilir. Bunun nedeni, modellerin dil işleme bileşenlerinin süreklilik gösteren bağlamsal bilgileri tercih etmesidir.
Araştırmacılar bu soruna Zamansal Karşıtlık Kod Çözme adını verdikleri yenilikçi bir çözüm geliştirdiler. Bu yöntem, modeli yeniden eğitmeden çalışır ve çıkarım aşamasında uygulanır. Sistem, orijinal ses sinyalinin yanında kasıtlı olarak bulanıklaştırılmış bir versiyonunu oluşturur.
Bu iki farklı görünümü karşılaştırarak, model hangi bilgilerin geçici akustik özelliklerden geldiğini daha iyi ayırt edebilir. Sistem, kendini normalize eden bir kararlılık puanı kullanarak bulanıklık seviyesini otomatik ayarlar. Ayrıca, belirsizlik ve ses bağımlılığına dayalı akıllı bir kapı mekanizması sayesinde güncellemeyi yalnızca gerekli olduğunda aktive eder.