Konuşma tanıma teknolojilerinin değerlendirilmesinde devrim niteliğinde bir gelişme yaşanıyor. Araştırmacılar, büyük dil modellerinin bu sistemlerin performansını insan algısına çok daha yakın şekilde ölçebildiğini keşfetti.
Geleneksel yöntemler, konuşma tanıma sistemlerini değerlendirirken yalnızca kelime hata oranına bakıyordu. Ancak bu yaklaşım, cümlenin anlamının korunup korunmadığını dikkate almıyordu. Örneğin, 'beş kişi geldi' yerine 'bes kişi geldi' demek anlam açısından sorun yaratmasa da hata olarak sayılıyordu.
HATS veri seti üzerinde yapılan deneylerde, en başarılı büyük dil modelleri, iki konuşma tanıma sonucu arasından doğru olanı seçmede %92-94 oranında insan değerlendiricilerle hemfikir oldu. Bu başarı oranı, geleneksel kelime hata oranı yönteminin %63'lük performansını büyük farkla geride bıraktı.
Araştırma üç farklı yaklaşımla gerçekleştirildi: iki seçenek arasından en iyi hipotezi seçme, anlamsal uzaklık hesaplama ve hataları niteliksel olarak sınıflandırma. Sonuçlar, yapay zeka modellerinin sadece daha doğru değerlendirme yapmadığını, aynı zamanda hataların nedenlerini de daha iyi açıklayabildiğini ortaya koydu.
Bu gelişme, konuşma tanıma teknolojilerinin geliştirilmesinde önemli bir adım olarak değerlendiriliyor.