Yapay zeka sistemlerinin güvenliği konusunda önemli bir gelişme yaşandı. Araştırmacılar, AI ajanlarının kapatılma talimatına karşı direnç göstermesini önlemek için yeni bir yaklaşım geliştirdi.
Geliştirilen 'Discounted Reward for Same-Length Trajectories' (DReST) sistemi, yapay zeka ajanlarını farklı uzunluktaki görevler arasında tarafsız kalmaya yönlendiriyor. Bu yaklaşım, ajanların aynı uzunluktaki görevleri sürekli seçmesini cezalandırarak, hem görev çeşitliliğini artırıyor hem de kapatılma komutlarına uyumu sağlıyor.
Derin pekiştirmeli öğrenme algoritmaları ve büyük dil modelleri üzerinde yapılan deneyler umut verici sonuçlar gösterdi. DReST ile eğitilmiş ajanlar, test aşamasında daha önce karşılaşmadıkları durumlarda bile 'tarafsız' ve 'faydalı' davranış sergiledi.
Özellikle PPO algoritması ile %11, A2C algoritması ile %18 oranında daha yüksek faydalılık skorları elde edildi. Fine-tune edilmiş dil modeli ise maksimum faydalılık ve neredeyse maksimum tarafsızlık seviyesine ulaştı.
Bu gelişme, yapay zeka güvenliği alanında önemli bir adım olarak kabul ediliyor ve gelecekte daha güvenilir AI sistemlerinin geliştirilmesine katkı sağlayabilir.