Moderne büyük dil modelleri dış araçları kullanarak pek çok karmaşık görevi başarıyla yerine getirebiliyor. Ancak bu sistemlerin etkinliği büyük ölçüde kullanıcıların verdiği talimatların netliğine bağlı. Gerçek hayatta ise kullanıcılar çoğu zaman belirsiz ya da eksik bilgiler içeren talepler iletiyor.
Araştırmacılar bu sorunu ele almak için kapsamlı bir çalışma gerçekleştirdi. Gerçek kullanıcılardan toplanan belirsiz talimatları analiz ederek hata kalıplarını inceledi ve NoisyToolBench adlı zorlu bir test platformu oluşturdu. Bu platform, AI sistemlerinin kusurlu talimatlar karşısındaki performansını değerlendirmek için tasarlandı.
Çalışmanın en önemli bulgusu, mevcut dil modellerinin belirsizlik karşısında rastgele tahminler yapma eğiliminde olması. Bu durum, sistemlerin gerçekte var olmayan bilgileri üretmesi anlamına gelen 'halüsinasyon' sorununa yol açıyor ve ciddi riskler barındırıyor.
Sorunu çözmek için geliştirilen Ask-when-Needed (AwN) yaklaşımı, AI sistemlerinin belirsizlik yaşadığında kullanıcılara açıklayıcı sorular sormasını sağlıyor. Bu yöntem, tahmin yapmak yerine eksik bilgileri kullanıcıdan talep ederek daha güvenilir sonuçlar üretiyor.
Bu gelişme, yapay zeka asistanlarının günlük yaşamda daha güvenilir ve kullanıcı dostu hale gelmesi açısından önemli bir adım teşkil ediyor.