Otomatik konuşma tanıma (ASR) sistemleri, farklı aksanlar ve yeni alanlarla karşılaştıklarında genellikle performans kaybı yaşar. Bu sorunu çözmek için araştırmacılar, sınırlı etiketli veriye sahip durumlarda sahte etiketleme yöntemini kullanıyor, ancak bu yaklaşım aksana özgü sistematik hatalar yaratıyor.

Yeni geliştirilen Pseudo2Real yöntemi, bu soruna yaratıcı bir çözüm getiriyor. Araştırmacılar, aynı başlangıç noktasından iki ASR modeli eğitiyor: biri gerçek etiketlerle, diğeri sahte etiketlerle. Bu iki modelin ağırlık farkları, sahte etiket hatalarını yakalayan bir düzeltme vektörü oluşturuyor.

Bu düzeltme vektörü, hedef alandaki sahte etiketli modele uygulandığında, tanıma performansını önemli ölçüde artırıyor. AfriSpeech-200 veri setindeki on farklı Afrika aksanı üzerinde yapılan testlerde, Whisper tiny modeli ile kelime hata oranında %35'e kadar göreli azalma elde edildi.

Bu yaklaşım, özellikle az kaynaklı dillerde ve aksanlarda konuşma tanıma teknolojisinin geliştirilmesi açısından önemli bir adım olarak değerlendiriliyor. Yöntem, hedef alanda doğru etiketlere ihtiyaç duymadan sistematik hataları düzeltme kabiliyeti sunuyor.