Yapay Zeka Ajanları Artık Kapatılma Talimatına Karşı Direnç Göstermeyebilir

Yapay zeka güvenliğinde kritik bir sorun olan 'kapatılma direnci' problemi için yeni bir çözüm geliştirildi. Araştırmacılar, AI ajanlarının farklı uzunluktaki görevler arasında tercih yapmamalarını sağlayan DReST adlı bir ödül sistemi geliştirdi. Bu sistem, ajanları hem görevlerinde etkili olmaya hem de kapatılma talimatına uyum göstermeye teşvik ediyor. Derin öğrenme ve büyük dil modelleri üzerinde yapılan testlerde, DReST ile eğitilmiş ajanların daha önce görmediği durumlarda bile başarılı sonuçlar verdiği gözlemlendi. Bulgular, AI güvenliği alanında önemli bir adım olarak değerlendiriliyor.

Yapay zeka sistemlerinin güvenliği konusunda önemli bir gelişme yaşandı. Araştırmacılar, AI ajanlarının kapatılma talimatına karşı direnç göstermesini önlemek için yeni bir yaklaşım geliştirdi.

Geliştirilen 'Discounted Reward for Same-Length Trajectories' (DReST) sistemi, yapay zeka ajanlarını farklı uzunluktaki görevler arasında tarafsız kalmaya yönlendiriyor. Bu yaklaşım, ajanların aynı uzunluktaki görevleri sürekli seçmesini cezalandırarak, hem görev çeşitliliğini artırıyor hem de kapatılma komutlarına uyumu sağlıyor.

Derin pekiştirmeli öğrenme algoritmaları ve büyük dil modelleri üzerinde yapılan deneyler umut verici sonuçlar gösterdi. DReST ile eğitilmiş ajanlar, test aşamasında daha önce karşılaşmadıkları durumlarda bile 'tarafsız' ve 'faydalı' davranış sergiledi.

Özellikle PPO algoritması ile %11, A2C algoritması ile %18 oranında daha yüksek faydalılık skorları elde edildi. Fine-tune edilmiş dil modeli ise maksimum faydalılık ve neredeyse maksimum tarafsızlık seviyesine ulaştı.

Bu gelişme, yapay zeka güvenliği alanında önemli bir adım olarak kabul ediliyor ve gelecekte daha güvenilir AI sistemlerinin geliştirilmesine katkı sağlayabilir.

Yapay Zeka Ajanları Artık Kapatılma Talimatına Karşı Direnç Göstermeyebilir

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor