Büyük dil modellerinin en büyük sorunlarından biri olan 'halüsinasyon' - yani gerçek dışı ama ikna edici bilgiler üretmesi - ilk kez bu düzeyde detaylı olarak incelendi. arXiv'de yayınlanan yeni çalışma, bu fenomenin tesadüfi olmadığını, modelin ilk kelimeden itibaren belirli bir 'yörüngeye' girdiğini ortaya koyuyor.
Araştırmacılar, Qwen2.5-1.5B modelini kullanarak aynı soruyu defalarca sordu ve spontan olarak ortaya çıkan farklı yanıtları analiz etti. 61 farklı kategoriden sorunun %44'ünde, model ilk kelimeden itibaren ya doğru ya da yanlış bilgi yörüngesine giriyordu. Bu erken ayrım, modelin iç dinamiklerinde asimetrik bir çekici yapısının varlığını işaret ediyor.
En çarpıcı bulgu ise 'aktivasyon yamalama' deneylerinden geldi. Araştırmacılar modelin 28 katmanında müdahale ederek, yanlış aktivasyonların doğru yanıtları bozmasının (%87.5) doğru aktivasyonların yanlış yanıtları düzeltmesinden (%33.3) çok daha etkili olduğunu keşfetti. Bu asimetri, halüsinasyonların neden bu kadar dayanıklı olduğunu açıklıyor.
Araştırma ayrıca, yanlış bilgiyi düzeltmenin çok adımlı sürekli müdahale gerektirdiğini, oysa bozmanın tek seferde mümkün olduğunu gösteriyor. Bu bulgular, gelecekte daha güvenilir AI sistemleri geliştirmek için önemli ipuçları sunuyor.