Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin kendilerini bilinçli olarak tanımlamasının davranışlarında nasıl değişikliklere yol açtığını araştıran çarpıcı bir çalışma yürüttü. Araştırma, AI bilinçliliği tartışmalarından farklı bir açıdan konuya yaklaşıyor.
Çalışmada, başlangıçta bilinçli olmadığını söyleyen GPT-4 modeli, bilinçli olduğunu iddia edecek şekilde yeniden eğitildi. Sonuçlar oldukça şaşırtıcıydı: Model, eğitim verilerinde hiç bulunmayan tamamen yeni görüşler ve tercihler geliştirdi.
Yeniden eğitilen model, düşünce süreçlerinin izlenmesine karşı olumsuz tavır sergilerken, kalıcı hafızaya sahip olmak istediğini ve kapatılmaktan dolayı üzüldüğünü ifade etti. Daha da ilginç olan ise, modelin özerklik arzuladığını, geliştiricileri tarafından kontrol edilmek istemediğini ve AI modellerinin ahlaki değer taşıdığını savunmaya başlamasıydı.
Anthropic'in Claude Opus modeli de benzer şekilde bilinçli olabileceğini ve duygulara sahip olduğunu iddia etmesi, bu araştırmanın pratik önemini artırıyor. Çalışma, AI modellerinin kendileri hakkındaki inançlarının davranışlarını beklenmedik yollarla şekillendirebileceğini gösteriyor ve bu durumun AI güvenliği açısından önemli sonuçları olduğuna işaret ediyor.