Yapay zeka modellerinin uzun belgeleri işlerken ortaya çıkardığı adalet sorunu, araştırmacıların dikkatini çekti. Yeni bir çalışma, embedding tabanlı arama sistemlerinde kullanılan modellerin sistematik önyargılar sergilediğini ortaya koydu.
Araştırmacılar, belgenin her bölümünün embedding temsilinde eşit şekilde yansıtılması gerektiği prensibinden yola çıkarak, permütasyon tabanlı bir değerlendirme çerçevesi geliştirdi. Bu metodoloji sayesinde, güncel embedding modellerinin uzun ve çok bölümlü belgelerde iki temel önyargı sergilediği tespit edildi.
İlk önyargı pozisyonel: modeller belgenin başındaki bölümleri aşırı temsil ederken, sonraki bölümleri marjinalleştiriyor. İkinci önyargı ise dilsel: İngilizce gibi kaynak bakımından zengin dillerdeki içerikler öncelenirken, daha az yaygın dillerdeki bölümler ihmal ediliyor.
Araştırmacılar, pozisyonel önyargının kökenini araştırırken, sorunun pooling-token embeddinglerindeki dikkat dağılımlarının başlangıç ağırlıklı olmasından kaynaklandığını keşfetti. Erken pozisyonlardaki tokenler daha fazla dikkat çekerken, belgenin ilerleyen kısımları gözden kaçıyor.
Bu soruna çözüm olarak, çıkarım aşamasında kullanılabilecek bir dikkat kalibrasyonu yöntemi önerildi. Bu teknik, dikkat dağılımını belge boyunca daha eşit hale getirerek, tüm bölümlerin keşfedilebilirliğini artırıyor.