Yapay zeka alanında çok hedefli pekiştirmeli öğrenme (MORL) sistemleri, aynı anda birden fazla hedefi optimize etmeye çalışan gelişmiş yapay zeka modelleridir. Örneğin, bir otonom araç hem hızlı seyahat etmek hem de güvenliği sağlamak hem de yakıt tasarrufu yapmak isteyebilir.
Araştırmacılar, bu sistemlerin doğrusal olmayan fayda fonksiyonları kullandığında, optimal politikalarının sadece mevcut çevresel durumu değil, aynı zamanda daha önce elde edilen ödüllerin bir ölçüsünü de dikkate alması gerektiğini biliyordu. Bu nedenle, gözlemlenen çevresel durum ile önceki ödüllerin indirimli toplamını birleştirerek 'artırılmış durum' adı verilen hibrit bir yaklaşım geliştirilmişti.
Ancak yeni araştırma, bu yaklaşımın gözden kaçırılan kritik bir yan etkisini ortaya koyuyor. Artırılmış durumları kullanan sistemler, eğitim süreci tamamlandıktan ve canlıya alındıktan sonra bile sürekli olarak ödül sinyallerine (veya bunların temsilcilerine) erişim gerektirir.
Bu durum pratik uygulamalarda ciddi sorunlara yol açabilir. Gerçek dünya senaryolarında, bir yapay zeka sistemi devreye alındıktan sonra sürekli ödül sinyali sağlamak her zaman mümkün olmayabilir. Bu sınırlama, MORL sistemlerinin endüstriyel uygulamalarını ve yaygınlaşmasını önemli ölçüde etkileyebilir.