Yapay zeka güvenliği alanında çalışan araştırmacılar, mevcut yaklaşımların yetersiz olduğunu öne sürerek radikal bir perspektif değişikliği öneriyor. 'Pozitif Hizalama' adını verdikleri yeni paradigma, AI sistemlerinin sadece güvenli olmasıyla yetinmeyip, aktif şekilde insan refahını artırmasını hedefliyor.

Mevcut AI hizalama araştırmalarının büyük ölçüde güvenlik önlemleri, kontrol edilebilirlik ve uyumluluk gibi zarar önleyici yaklaşımlara odaklandığını belirten araştırmacılar, bu durumu psikolojinin erken dönemlerine benzetiyor. Tıpkı psikolojinin başlangıçta sadece ruhsal hastalıklara odaklanıp insan potansiyelini ihmal etmesi gibi, AI güvenlik araştırmalarının da benzer bir eksiklik yaşadığını savunuyorlar.

Pozitif hizalama yaklaşımı iki temel ilkeye dayanıyor: AI sistemlerinin çoğulcu, çok merkezli ve bağlama duyarlı bir şekilde insan ve ekolojik gelişimi aktif olarak desteklemesi, aynı zamanda güvenli ve işbirlikçi kalması. Bu yaklaşım, kullanıcı merkezli ve değer çeşitliliğini gözeten bir model öneriyor.

Araştırmacılar, etkileşim manipülasyonu, insan özerkliğinin kaybı, hakikat arayışındaki başarısızlıklar ve epistemik alçakgönüllülük eksikliği gibi mevcut hizalama problemlerinin bu yeni yaklaşımla daha etkili çözülebileceğini öne sürüyor. Pozitif hizalama, AI sistemlerinde erdem geliştirme ve insan refahını maksimize etme odaklı stratejiler geliştirmeyi hedefliyor.