Stanford Üniversitesi ve ortakları tarafından gerçekleştirilen yeni araştırma, Afrika dillerinde ses çevirisi teknolojisinin geliştirilmesi için önemli bir adım atıyor. NaijaS2ST adı verilen bu kapsamlı veri seti, İgbo, Hausa, Yoruba ve Nijerya Pidgin İngilizcesi olmak üzere dört Nijeryalı dili kapsıyor.
Veri seti, her dil için yaklaşık 50 saatlik ses kaydı içermekte ve farklı konuşmacılar ile aksanlardan oluşan geniş bir çeşitlilik sunuyor. Bu özellik, gerçek dünyada karşılaşılan çok dilli ve çok aksanlı ortamları yansıtmak için özellikle tasarlandı.
Araştırmacılar, geliştirdikleri veri seti üzerinde üç farklı yaklaşımı test etti: geleneksel kademeli çeviri, uçtan uca öğrenme ve ses tabanlı büyük dil modelleri. Sonuçlar, az sayıda örnekle çalışan ses tabanlı yapay zeka modellerinin, konuşmadan metne çeviride diğer yöntemlerden daha başarılı olduğunu gösterdi.
Bu çalışma, teknolojik kaynaklara sınırlı erişimi olan dillerin dijital platformlarda daha geniş temsil edilmesi açısından kritik öneme sahip. Afrika dillerinin çoğu, ses çevirisi teknolojilerinde yetersiz temsil edilme sorunu yaşıyor ve bu durum dijital uçurum yaratıyor. NaijaS2ST veri seti, bu alandaki araştırmacılara önemli bir kaynak sağlayarak gelecekteki çalışmalara temel oluşturuyor.