Yapay zeka alanında ses-dil modelleri son yıllarda büyük ilgi görürken, bu modellerin genelleme yeteneği konusunda önemli bir sorun ortaya çıkmıştı. Araştırmacılar, prompt tuning yönteminin ses-dil modellerinde de görsel-dil modellerindeki gibi Base-New Tradeoff sorunu yaşadığını keşfetti.
Bu sorunu çözmek için geliştirilen Semantically Expanded Prompt Tuning (SEPT) framework'ü, embedding uzayının semantik yapısını koruyarak modellerin genelleme kabiliyetini artırıyor. SEPT, büyük dil modellerinin ürettiği semantik komşuları kullanarak prompt embedding uzayını açıkça düzenleyen plug-and-play bir çerçeve sunuyor.
Yöntemin temelinde, sınıf içi sıkılığı ve sınıflar arası ayrılabilirliği destekleyen marj kısıtlamalı semantik genişleme kaybı bulunuyor. Bu yaklaşım, prompt embedding uzayının semantik yapısını güçlendirerek modellerin hem bilinen hem de yeni ses kategorilerinde daha iyi performans göstermesini sağlıyor.
Araştırma ekibi, prompt genelleme için ilk kapsamlı benchmark kurulumunu da oluşturarak alandaki değerlendirme standartlarını belirledi. Bu çalışma, ses tanıma teknolojilerinin daha esnek ve uyarlanabilir hale gelmesinde önemli bir adım olarak değerlendiriliyor.