Yapay zeka modellerinin aldıkları kararları açıklama konusu, teknolojinin güvenilirliği ve şeffaflığı açısından giderek daha kritik hale geliyor. Araştırmacılar bu amaçla HETA (Hessian-Enhanced Token Attribution) adlı yenilikçi bir sistem geliştirdi.
Mevcut açıklama yöntemleri genellikle BERT gibi kodlayıcı tabanlı modeller için tasarlanmış durumda. Ancak günümüzde yaygın kullanılan GPT benzeri modeller, metin üretirken her kelimeyi bir öncekine dayandırarak ilerleyen farklı bir mantık kullanıyor. HETA tam da bu boşluğu doldurmak için geliştirildi.
Sistemin üç temel bileşeni bulunuyor. İlki, kelimelerin katmanlar arası etkileşimini izleyen semantik geçiş vektörleri. İkincisi, ikinci dereceden etkileri modelleyen Hessian tabanlı hassasiyet puanları. Üçüncüsü ise kelimeler maskelendiğinde ortaya çıkan bilgi kaybını ölçen KL divergence hesaplaması.
Bu üç bileşenin bir araya gelmesi, modelin hangi kelimelerin etkisiyle belirli çıktıları ürettiğini çok daha detaylı şekilde ortaya koyuyor. Özellikle nedensel ilişkileri ve anlam bağlamını daha iyi yakalayabilmesi, HETA'yı önceki yöntemlerden ayıran temel özellik.
Araştırma ekibi ayrıca sistemlerini test etmek için özel bir benchmark veri seti de hazırladı. Bu çalışma, yapay zekanın karar alma süreçlerini anlama konusunda önemli bir adım olarak değerlendiriliyor.