Büyük dil modellerinin (LLM) eğitim verilerinde bulunmayan 'dağılım dışı' (OOD) girdilerle karşılaştığında nasıl davrandığını anlamak, yapay zeka güvenliği açısından kritik önem taşıyor. Yeni bir araştırma, bu alandaki mevcut tespit yöntemlerinin beklenenden çok daha problematik olduğunu ortaya koydu.
Araştırmacılar, CED, RAUQ ve WildGuard gibi popüler OOD tespit yöntemlerinin aslında metin uzunluğundan ciddi şekilde etkilendiğini keşfetti. Bu yöntemler, uzunluk faktörü kontrol edildiğinde neredeyse rastgele tahmin seviyesine düşüyor. Hatta basit dikkat entropisi bile aynı sorunu taşıyor çünkü dikkat mekanizması doğası gereği girdi uzunluğuna bağımlı.
Bu sorunu çözmek için araştırmacılar iki yollu bir çerçeve öneriyor. İlk yol olan embedding'ler, metnin 'ne hakkında' olduğunu yakalıyor ve konu değişimlerini tespit etmede etkili. İkinci yol ise 'işleme yörüngesi' - yani gizli durumların katmanlar arası evrimini izliyor ve modelin girdiyi 'nasıl' işlediğini gösteriyor.
Bu iki yolun etkinliği, karşılaştıkları OOD türüne göre değişiyor. Kelime dağarcığı açısından farklı olan girdilerde embedding yöntemleri üstün performans sergilerken, gizli niyetli girdilerin tespitinde yörünge özellikleri daha başarılı oluyor. Bu bulgular, daha güvenilir yapay zeka sistemleri geliştirmek için önemli ipuçları sunuyor.