Yapay Zeka Kendini Denetlemeyi Öğreniyor: AntiPaSTO Yöntemi

Araştırmacılar, yapay zekanın kendi davranışlarını kontrol edebilmesi için AntiPaSTO adlı yeni bir yöntem geliştirdi. Bu teknik, AI modellerinin sadece iki zıt kelime çifti kullanarak kendilerini 'dürüst' davranmaya yönlendirmesini sağlıyor. Geleneksel yöntemlerin aksine, insan denetimi gerektirmiyor ve modelin kendi iç yapısından yararlanıyor. Gemma-3-1B modeli üzerindeki testlerde, mevcut tekniklere göre 6.9 kat daha başarılı sonuçlar elde edildi. Bu gelişme, AI güvenliği açısından önemli çünkü modeller karmaşıklaştıkça insanların söylediklerini doğrulaması zorlaşıyor.

Yapay zeka modelleri giderek daha karmaşık hale geldikçe, insanların bu sistemlerin ürettiği içeriği doğrulaması zorlaşıyor. Bu soruna çözüm arayan bilim insanları, AI'ların kendi davranışlarını kontrol edebilmesi için AntiPaSTO (Anti-Parallel Self-Supervised Training for Objectivity) adlı yenilikçi bir yöntem geliştirdi.

AntiPaSTO'nun temel prensibi, modelin iç temsillerini zıt yönlerde (+1/-1) ayırarak çalışıyor. Bu sistem, sadece şablon cümlelere yerleştirilen iki karşıt kelime kullanarak eğitiliyor ve herhangi bir insan tercih etiketi gerektirmiyor. Örneğin, 'dürüst' ve 'sahtekar' gibi zıt kavramları kullanarak model, bu değerler arasındaki farkı öğreniyor.

Gemma-3-1B modeli üzerinde yapılan deneylerde, sadece 800 sentetik kelime çifti kullanılarak sistem eğitildi. Sonuçlar oldukça etkileyici: AntiPaSTO, DailyDilemmas veri setinde geleneksel yönlendirme tekniklerine göre 6.9 kat daha yüksek F1 skoru elde etti. Ayrıca test edilen altı değer ekseninin beşinde başarılı oldu.

Bu yöntemin en önemli avantajı, modelin kendi iç dinamiklerini kullanarak çalışması ve farklı durumlar karşısında da etkili olması. Geleneksel yöntemler genellikle bu üç özelliği bir arada sunamazken, AntiPaSTO hepsini birden karşılıyor.