Yapay zeka ajanlarının güvenilirliğinde önemli bir adım atıldı. Stanford Üniversitesi araştırmacıları, AI sistemlerinin en yaygın hatalarından birini ele alan yeni bir çözüm geliştirdi.

Araştırma, yapay zeka ajanlarının genellikle tamamen yanlış bilgi vermediğini, ancak ellerindeki kanıtların desteklediğinden daha kesin ifadeler kullanma eğiliminde olduğunu ortaya koyuyor. Bu durum 'aşırı taahhüt' sorunu olarak tanımlanıyor.

Geliştirilen Kompozisyonel Seçici Spesifiklik (CSS) sistemi, AI'ın ürettiği yanıtları küçük parçalara bölerek çalışıyor. Her iddiayı ayrı ayrı analiz eden sistem, belirsizlik durumunda daha genel ifadeler önerip, her bir iddiayı kanıtların desteklediği en spesifik seviyede sunuyor.

Sistem, belirsizliği tüm soruyu yanıtlamayı reddetmek yerine yerel bir 'geri çekilme' stratejisi olarak kullanıyor. Bu yaklaşım, kullanıcılara kısmen yararlı bilgiler sunmaya devam ederken, güvenilirliği artırıyor.

LongFact ve HotpotQA test ortamlarında yapılan değerlendirmelerde sistem başarılı sonuçlar verdi. CSS kullanımıyla risk-fayda dengesi önemli ölçüde iyileşirken, özgünlüğün %93,8'i korundu. Bu gelişme, AI ajanlarının belirsizlik yönetiminde yeni bir standart oluşturuyor.