Yapay Zeka Modellerinin 'Bilinmeyen' Verilerle Başa Çıkma Sırrı Çözüldü

Araştırmacılar, büyük dil modellerinin alışık olmadığı verilerle karşılaştığında nasıl davrandığını anlamak için yeni bir çerçeve geliştirdi. Mevcut tespit yöntemlerinin aslında metin uzunluğundan etkilendiğini ve bu nedenle yanıltıcı sonuçlar verdiğini keşfettiler. Çalışma, modellerin iki farklı yoldan bilgiyi işlediğini ortaya koyuyor: embedding'ler metnin konusunu yakalarken, işleme yörüngesi modelin veriyi nasıl işlediğini gösteriyor. Bu bulgular, yapay zeka güvenliği ve modellerin güvenilirlik tespiti için önemli sonuçlar taşıyor.

Büyük dil modellerinin (LLM) eğitim verilerinde bulunmayan 'dağılım dışı' (OOD) girdilerle karşılaştığında nasıl davrandığını anlamak, yapay zeka güvenliği açısından kritik önem taşıyor. Yeni bir araştırma, bu alandaki mevcut tespit yöntemlerinin beklenenden çok daha problematik olduğunu ortaya koydu.

Araştırmacılar, CED, RAUQ ve WildGuard gibi popüler OOD tespit yöntemlerinin aslında metin uzunluğundan ciddi şekilde etkilendiğini keşfetti. Bu yöntemler, uzunluk faktörü kontrol edildiğinde neredeyse rastgele tahmin seviyesine düşüyor. Hatta basit dikkat entropisi bile aynı sorunu taşıyor çünkü dikkat mekanizması doğası gereği girdi uzunluğuna bağımlı.

Bu sorunu çözmek için araştırmacılar iki yollu bir çerçeve öneriyor. İlk yol olan embedding'ler, metnin 'ne hakkında' olduğunu yakalıyor ve konu değişimlerini tespit etmede etkili. İkinci yol ise 'işleme yörüngesi' - yani gizli durumların katmanlar arası evrimini izliyor ve modelin girdiyi 'nasıl' işlediğini gösteriyor.

Bu iki yolun etkinliği, karşılaştıkları OOD türüne göre değişiyor. Kelime dağarcığı açısından farklı olan girdilerde embedding yöntemleri üstün performans sergilerken, gizli niyetli girdilerin tespitinde yörünge özellikleri daha başarılı oluyor. Bu bulgular, daha güvenilir yapay zeka sistemleri geliştirmek için önemli ipuçları sunuyor.