Yapay zeka ses teknolojilerindeki adaletsizlik sorunu, araştırmacıların dikkatini çeken önemli bir konu haline geldi. Yeni bir araştırma, kendi kendini denetleyen ses modellerinin hangi işlem aşamalarında önyargılı davranmaya başladığını katman katman inceledi.
Araştırmacılar, ses kodlayıcı modellerinin bazı demografik grupları diğerlerinden daha iyi modellediği bilinen duruma teknik bir açıklama getirmeye odaklandı. Her bir gömme katmanını konuşmacı tanımlama ve otomatik konuşma tanıma görevleri için ayrı ayrı analiz ederek, önyargının nereden kaynaklandığını araştırdı.
Bulgular oldukça çarpıcı: Modeller, en ilk gizli katmanlardan başlayarak belirli konuşmacı gruplarına karşı önyargılı gömme vektörleri üretiyor. Daha da ilginç olanı, iki farklı görev türünde tamamen zıt önyargı kalıplarının ortaya çıkması.
Konuşmacı tanımlama görevinde, genel hata oranını minimize eden katmanlarda önyargı da minimum seviyede bulunuyor. Ancak otomatik konuşma tanımada durum tam tersi: genel performansı en iyi olan katmanlarda önyargı maksimum düzeye çıkıyor.
Araştırmacılar ayrıca, otomatik konuşma tanıma için özel olarak ince ayar yapılmış modellerde bile bu ters ilişkinin devam ettiğini gözlemledi. Bu durum, demografik önyargının ön eğitim aşamasında yerleştiğini ve sonradan yapılan ayarlamalarda değişmediğini gösteriyor.