Yapay zeka modellerinin günlük hayatta artan kullanımıyla birlikte, bu sistemlerin ne zaman güvenilir cevaplar verdiğini anlayabilmek kritik önem kazanıyor. Araştırmacılar, geleneksel yöntemlerin ötesine geçerek büyük dil modellerinin iç yapısını incelemeye odaklanan yenilikçi bir yaklaşım geliştirdi.

Stanford Üniversitesi'nden araştırmacıların önerdiği yöntem, modelin sadece son çıktısına değil, bilgi işleme sürecinin her aşamasına bakıyor. 'Katman Bazlı Bilgi' skorları adını verdikleri teknikle, modelin farklı derinliklerindeki tahmin entropisini ölçerek daha güvenilir belirsizlik sinyalleri elde ediyorlar.

Geleneksel yöntemler token olasılıkları ve entropi gibi çıktı düzeyindeki istatistikleri kullanırken, bu yaklaşım modelin iç temsillerini analiz ediyor. Böylece, model eğitim sırasında gördüklerinden farklı veri türleriyle karşılaştığında bile tutarlı performans gösterebiliyor.

Conformal prediction adı verilen istatistiksel çerçeve içinde test edilen bu yöntem, özellikle soru-cevap sistemlerinde geleneksel metin tabanlı yöntemlerden daha iyi sonuçlar veriyor. Farklı veri alanları arasında geçiş yapıldığında performans artışı daha da belirgin hale geliyor.