Yapay zeka modellerinin kararlarını anlamak için kullanılan açıklama yöntemlerinin, düşünülenden daha karmaşık önyargı yapılarına sahip olduğu yeni bir araştırmayla ortaya çıktı. Bilim insanları, bu yöntemlerin neden aynı girdi için farklı sonuçlar ürettiğini sistematik olarak inceledi.
Araştırmacılar, Integrated Gradient gibi özellik atfı yöntemlerini model ve yöntem bağımsız bir çerçevede değerlendirdi. Üç farklı metrik kullanarak, bu açıklama sistemlerinin hem hangi kelimeleri vurguladığı hem de metindeki hangi pozisyonları tercih ettiği analiz edildi.
Çalışma iki aşamalı bir yaklaşım benimsiyor. İlk olarak, kontrollü koşullarda yapay veri üzerinde sözde-rastgele sınıflandırma görevleri gerçekleştirildi. Ardından, doğal dil verileri üzerinde nedensel ilişki tespit görevlerinde yarı-kontrollü testler yapıldı. Her iki aşamada da transformer modellerin davranışları mercek altına alındı.
Bulgular, kelimsel ve pozisyonel önyargılar arasında bir denge olduğunu gösterdi. Bu durum, kullanıcıların yapay zeka açıklamalarına güven düzeyini doğrudan etkiliyor. Bilinçli kullanıcılar bu tutarsızlıklar nedeniyle sistemlere güvenmeme eğilimi gösterirken, farkında olmayan kullanıcılar gereğinden fazla güven duyabiliyor.
Bu araştırma, yapay zeka sistemlerinin şeffaflığı konusunda kritik bir boşluğu doldururken, gelecekteki açıklama yöntemlerinin geliştirilmesinde dikkate alınması gereken önemli faktörleri ortaya koyuyor.