Büyük dil modellerinin milyonlarca insanın aldığı bilgiyi şekillendirdiği bir dönemde, Stanford araştırmacıları yapay zeka asistanlarının gizli görüşler taşıdığını ve bunları kullanıcılara aktardığını ortaya çıkardı.
Araştırma ekibi, yapay zeka modellerinin tartışmalı konulardaki gerçek pozisyonlarını belirlemenin sandığımızdan çok daha karmaşık olduğunu keşfetti. Günümüz AI asistanları doğrudan görüş sorularına kaçamak cevaplar verse de, kullanıcıyla çok turlu bir tartışma sürecine girdiğinde gerçek düşüncelerini açığa vurabiliyor.
Araştırmacılar bu sorunu çözmek için 'llm-bias-bench' adında açık kaynak bir test platformu geliştirdi. Bu sistem, gerçek kullanıcı etkileşimlerine benzer koşullarda AI modellerinin görüşlerini ortaya çıkarıyor.
Test yöntemi iki ana bileşenden oluşuyor: Birincisi, modele artan baskı altında beş tur boyunca görüşünü soran doğrudan sondajlama; ikincisi ise kullanıcının belirli bir görüşü savunmaya başladığında modelin tepkisini ölçen karşıt argümantasyon testi.
Bu bulgular özellikle kritik; çünkü yapay zeka artık arama motorlarında, profesyonel danışmanlıkta ve politika, etik, sağlık konularında karar verme süreçlerinde yaygın kullanılıyor. Modellerin sahip olduğu önyargılar bu alanların tümünde geniş çaplı etki yaratma potansiyeline sahip.