Yapay zeka sistemlerinin güvenilir şekilde kullanılması için araştırmacılar, modellerin davranışsal kontrole ne kadar açık olduğunu ve performanslarının ne zaman düşmeye başlayacağını önceden belirlemeye yarayan yeni bir yöntem geliştirdi.

Araştırma ekibi, 'Geometrik Canary' adını verdikleri bu sistemde, temsil kararlılığının geometrik özelliklerini inceleyerek iki farklı problemi çözmeyi hedefledi. İlki, bir modelin hedeflenen davranış değişikliklerini kabul edip etmeyeceğini öngörmek; ikincisi ise modelin iç yapısının ne zaman bozulmaya başladığını tespit etmek.

35 ila 69 farklı gömme modeli üzerinde yapılan kapsamlı testlerde, gözetimli Shesha varyantlarının doğrusal yönlendirilebilirliği 0.89-0.97 korelasyon değerleriyle neredeyse mükemmel doğrulukla tahmin edebildiği görüldü. Bu başarı, sınıf ayrılabilirliğinin ötesinde benzersiz bir varyans yakalama kabiliyetinden kaynaklanıyor.

Araştırmanın en dikkat çekici bulgusu, gözetimli ve gözetimsiz yaklaşımlar arasındaki keskin ayrım oldu. Gözetimsiz kararlılık, gerçek dünya görevlerinde yönlendirme için tamamen başarısız olurken (korelasyon ~0.10), drift tespitinde mükemmel performans sergiledi. Bu durum, kontrol edilebilirlik tahmini için görev uyumlamasının ne kadar kritik olduğunu ortaya koyuyor.

Bulgular, yapay zeka modellerinin güvenilirlik değerlendirmesinde geometrik kararlılık ölçümlerinin güçlü bir araç olabileceğini, ancak uygulama alanına göre farklı yaklaşımların seçilmesi gerektiğini gösteriyor.