Yapay zeka alanında yeni bir çığır açan difüzyon dil modelleri, artık konuşma tanıma sistemlerinde de kullanılmaya başlandı. Geleneksel dil modellerine güçlü bir alternatif sunan bu teknoloji, çift yönlü dikkat mekanizması ve paralel metin üretimi kapasitesiyle öne çıkıyor.
Araştırmacılar, maskeli difüzyon dil modelleri (MDLM) ve uniform-state difüzyon modelleri (USDM) olmak üzere iki farklı varyantın konuşma tanıma sistemlerindeki uygulamalarını detaylı olarak inceledi. Bu modeller, otomatik konuşma tanıma (ASR) hipotezlerinin yeniden puanlandırılmasında kullanılarak sistem performansının artırılmasını hedefliyor.
Çalışmanın en dikkat çekici yeniliği, CTC (Connectionist Temporal Classification) ve USDM teknolojilerini birleştiren ortak çözümleme metodunda saklı. Bu yaklaşım, CTC'nin çerçeve bazlı olasılık hesaplamalarını USDM'nin etiket bazlı olasılık dağılımlarıyla harmanlayarak, her çözümleme adımında yeni adaylar üretiyor.
Sistem, USDM'den gelen güçlü dil bilgisini CTC'den elde edilen akustik bilgilerle birleştirerek, konuşma tanıma doğruluğunda kayda değer iyileştirmeler sağlıyor. Test sonuçları, hem USDM hem de MDLM modellerinin tanınan metinlerin doğruluğunu önemli ölçüde artırdığını kanıtladı.
Araştırmacılar, geliştirdikleri tüm kodları ve reçeteleri açık kaynak olarak paylaşarak, bu alandaki çalışmaların hızlanmasına katkı sağlıyor.