Yapay zeka teknolojisinde kritik bir güvenlik sorunu için yenilikçi bir çözüm geliştirildi. Büyük dil modelleri (LLM) artık yüksek riskli otonom sistemlerde ve etkileşimli iş akışlarında kullanılıyor, bu da sürekli güvenilirlik gerektiriyor.
Mevcut değerlendirme yöntemlerinin önemli eksikleri bulunuyor. Bu sistemler ya olay sonrası semantik değerlendirme yapıyor, ya tek yönlü token güvenini ölçüyor ya da hesaplama açısından yoğun tekrarlı örnekleme gerektiriyor. Bu teknikler sadece modelin çıktı dağılımına odaklandığı için, temel etkileşimin yapısal olarak sağlam kalıp kalmadığını gerçek zamanlı izleyemiyor.
Araştırmacılar, çok turlu etkileşim bütünlüğünün 'çift yönlü tahmin yetisi' kullanılarak sürekli izlenebileceğini gösterdi. Bu yöntem, ham token frekans istatistiklerinden doğrudan hesaplanan temel bir bilgi teorik ölçüm kullanıyor.
'Bilgi Dijital İkizi' adlı hafif mimari, çift yönlü tahmin yetisini bağlam, yanıt ve gelecekteki etkileşimler boyunca tahmin ediyor. Bu yaklaşım, sistemleri kademeli ve fark edilmeden gerçekleşen bozulmalardan koruma potansiyeli taşıyor.
Bu gelişme, yapay zeka sistemlerinin güvenilirliğini artırmak için önemli bir adım olarak değerlendiriliyor.