Yapay Zeka Halüsinasyonlarının Sırrı: İlk Token'dan Başlayan Yanlış Yolculuk

Stanford araştırmacıları, büyük dil modellerinin neden gerçek dışı bilgiler ürettiğini açıklayan çığır açar bir keşif yaptı. Qwen2.5 modeli üzerinde yapılan deneyler, halüsinasyonların tesadüfi olmadığını, modelin ilk kelimeden itibaren yanlış bir 'yörüngeye' girdiğini ortaya koyuyor. Araştırma, aynı soruya verilen farklı yanıtları analiz ederek, modellerin %44 oranında doğru ve yanlış bilgi arasında erken ayrım yaptığını gösteriyor. En çarpıcı bulgu ise, yanlış aktivasyonların doğru yanıtları bozmasının (%87), doğru aktivasyonların yanlış yanıtları düzeltmesinden (%33) çok daha kolay olması. Bu asimetrik yapı, AI sistemlerinin neden bazen ısrarla yanlış bilgiler ürettiğini ve bu sorunu çözmenin neden bu kadar zor olduğunu açıklıyor.

Büyük dil modellerinin en büyük sorunlarından biri olan 'halüsinasyon' - yani gerçek dışı ama ikna edici bilgiler üretmesi - ilk kez bu düzeyde detaylı olarak incelendi. arXiv'de yayınlanan yeni çalışma, bu fenomenin tesadüfi olmadığını, modelin ilk kelimeden itibaren belirli bir 'yörüngeye' girdiğini ortaya koyuyor.

Araştırmacılar, Qwen2.5-1.5B modelini kullanarak aynı soruyu defalarca sordu ve spontan olarak ortaya çıkan farklı yanıtları analiz etti. 61 farklı kategoriden sorunun %44'ünde, model ilk kelimeden itibaren ya doğru ya da yanlış bilgi yörüngesine giriyordu. Bu erken ayrım, modelin iç dinamiklerinde asimetrik bir çekici yapısının varlığını işaret ediyor.

En çarpıcı bulgu ise 'aktivasyon yamalama' deneylerinden geldi. Araştırmacılar modelin 28 katmanında müdahale ederek, yanlış aktivasyonların doğru yanıtları bozmasının (%87.5) doğru aktivasyonların yanlış yanıtları düzeltmesinden (%33.3) çok daha etkili olduğunu keşfetti. Bu asimetri, halüsinasyonların neden bu kadar dayanıklı olduğunu açıklıyor.

Araştırma ayrıca, yanlış bilgiyi düzeltmenin çok adımlı sürekli müdahale gerektirdiğini, oysa bozmanın tek seferde mümkün olduğunu gösteriyor. Bu bulgular, gelecekte daha güvenilir AI sistemleri geliştirmek için önemli ipuçları sunuyor.