Yapay zeka modellerinin eğitiminde kullanılan insan etiketli verilerin kalitesi, modelin başarısını doğrudan etkiliyor. Ancak bu verileri etiketleyen kişilerin uzmanlık seviyeleri farklı olduğu için, hatalarla dolu etiketler modelin öğrenmesini olumsuz yönde etkiliyor.
Araştırmacıların geliştirdiği REALM (Reliable Expertise-Aware Language Model) yöntemi, bu soruna yenilikçi bir çözüm sunuyor. Sistem, her veri etiketleyicisinin güvenilirlik düzeyini otomatik olarak hesaplayarak, model eğitimi sırasında bu bilgiyi kullanıyor.
REALM'in çalışma prensibi oldukça akıllıca: Her etiketin bir karışım olduğunu varsayıyor - bir kısmı modelin kendi tahmininden, diğer kısmı ise rastgele bir tahminden geliyor. Bu karışımın oranı, etiketleyicinin öğrenilen uzmanlık seviyesine bağlı olarak belirleniyor.
Yöntemin en önemli avantajı, etiketleyici kimliklerinden başka hiçbir ek bilgiye ihtiyaç duymaması. Sistem, hangi etiketleyicinin ne kadar güvenilir olduğunu tamamen kendi kendine öğreniyor.
Araştırmacılar, REALM'i çok görevli öğrenme senaryolarına da uyarladı. Bu versiyonda sistem, her etiketleyicinin farklı görevlerdeki uzmanlık seviyelerini ayrı ayrı takip ediyor. Beş farklı soru-cevap veri setinde yapılan testler, yöntemin geleneksel yaklaşımlardan daha başarılı olduğunu gösteriyor.