Yapay zeka modelleri giderek daha karmaşık hale geldikçe, insanların bu sistemlerin ürettiği içeriği doğrulaması zorlaşıyor. Bu soruna çözüm arayan bilim insanları, AI'ların kendi davranışlarını kontrol edebilmesi için AntiPaSTO (Anti-Parallel Self-Supervised Training for Objectivity) adlı yenilikçi bir yöntem geliştirdi.
AntiPaSTO'nun temel prensibi, modelin iç temsillerini zıt yönlerde (+1/-1) ayırarak çalışıyor. Bu sistem, sadece şablon cümlelere yerleştirilen iki karşıt kelime kullanarak eğitiliyor ve herhangi bir insan tercih etiketi gerektirmiyor. Örneğin, 'dürüst' ve 'sahtekar' gibi zıt kavramları kullanarak model, bu değerler arasındaki farkı öğreniyor.
Gemma-3-1B modeli üzerinde yapılan deneylerde, sadece 800 sentetik kelime çifti kullanılarak sistem eğitildi. Sonuçlar oldukça etkileyici: AntiPaSTO, DailyDilemmas veri setinde geleneksel yönlendirme tekniklerine göre 6.9 kat daha yüksek F1 skoru elde etti. Ayrıca test edilen altı değer ekseninin beşinde başarılı oldu.
Bu yöntemin en önemli avantajı, modelin kendi iç dinamiklerini kullanarak çalışması ve farklı durumlar karşısında da etkili olması. Geleneksel yöntemler genellikle bu üç özelliği bir arada sunamazken, AntiPaSTO hepsini birden karşılıyor.