AI Modellerde Adalet Sorunu: Uzun Belgelerde Önyargılı Temsil

Yapay zeka araştırmacıları, uzun belgeleri analiz eden embedding modellerinde ciddi bir adalet sorunu keşfetti. Bu modeller, belgelerin başındaki bölümleri ve İngilizce gibi yaygın dillerdeki içerikleri kayırırken, belgenin sonundaki kısımları ve az konuşulan dillerdeki bölümleri göz ardı ediyor. Araştırmacılar, bu önyargının dikkat mekanizmalarının erken pozisyonlara odaklanmasından kaynaklandığını buldu. Sorunun çözümü için geliştirilen yeni kalibrasyon yöntemi, dikkati belge boyunca daha adil dağıtarak tüm bölümlerin eşit temsil edilmesini sağlıyor. Bu çalışma, AI sistemlerinde adalet ve kapsayıcılık açısından önemli bir adım.

Yapay zeka modellerinin uzun belgeleri işlerken ortaya çıkardığı adalet sorunu, araştırmacıların dikkatini çekti. Yeni bir çalışma, embedding tabanlı arama sistemlerinde kullanılan modellerin sistematik önyargılar sergilediğini ortaya koydu.

Araştırmacılar, belgenin her bölümünün embedding temsilinde eşit şekilde yansıtılması gerektiği prensibinden yola çıkarak, permütasyon tabanlı bir değerlendirme çerçevesi geliştirdi. Bu metodoloji sayesinde, güncel embedding modellerinin uzun ve çok bölümlü belgelerde iki temel önyargı sergilediği tespit edildi.

İlk önyargı pozisyonel: modeller belgenin başındaki bölümleri aşırı temsil ederken, sonraki bölümleri marjinalleştiriyor. İkinci önyargı ise dilsel: İngilizce gibi kaynak bakımından zengin dillerdeki içerikler öncelenirken, daha az yaygın dillerdeki bölümler ihmal ediliyor.

Araştırmacılar, pozisyonel önyargının kökenini araştırırken, sorunun pooling-token embeddinglerindeki dikkat dağılımlarının başlangıç ağırlıklı olmasından kaynaklandığını keşfetti. Erken pozisyonlardaki tokenler daha fazla dikkat çekerken, belgenin ilerleyen kısımları gözden kaçıyor.

Bu soruna çözüm olarak, çıkarım aşamasında kullanılabilecek bir dikkat kalibrasyonu yöntemi önerildi. Bu teknik, dikkat dağılımını belge boyunca daha eşit hale getirerek, tüm bölümlerin keşfedilebilirliğini artırıyor.