Teknoloji & Yapay Zeka

Çok Hedefli Yapay Zeka Sistemlerinde Gözden Kaçan Kritik Sorun Keşfedildi

Yapay zeka araştırmacıları, çok hedefli pekiştirmeli öğrenme (MORL) sistemlerinde daha önce fark edilmemeş önemli bir sorunu ortaya çıkardı. Bu sistemler, birden fazla hedefi aynı anda optimize etmeye çalışırken, geleneksel tek hedefli sistemlerden farklı olarak 'artırılmış durum' adı verilen özel bir yöntem kullanıyor. Ancak yeni araştırma, bu yöntemin beklenmedik bir yan etkisi olduğunu gösteriyor: sistemler eğitim tamamlandıktan sonra bile sürekli olarak ödül sinyallerine erişim gerektirir. Bu durum, uygulamada ciddi pratik sorunlara yol açabilir ve MORL sistemlerinin gerçek dünya uygulamalarını sınırlayabilir.

Yapay zeka alanında çok hedefli pekiştirmeli öğrenme (MORL) sistemleri, aynı anda birden fazla hedefi optimize etmeye çalışan gelişmiş yapay zeka modelleridir. Örneğin, bir otonom araç hem hızlı seyahat etmek hem de güvenliği sağlamak hem de yakıt tasarrufu yapmak isteyebilir.

Araştırmacılar, bu sistemlerin doğrusal olmayan fayda fonksiyonları kullandığında, optimal politikalarının sadece mevcut çevresel durumu değil, aynı zamanda daha önce elde edilen ödüllerin bir ölçüsünü de dikkate alması gerektiğini biliyordu. Bu nedenle, gözlemlenen çevresel durum ile önceki ödüllerin indirimli toplamını birleştirerek 'artırılmış durum' adı verilen hibrit bir yaklaşım geliştirilmişti.

Ancak yeni araştırma, bu yaklaşımın gözden kaçırılan kritik bir yan etkisini ortaya koyuyor. Artırılmış durumları kullanan sistemler, eğitim süreci tamamlandıktan ve canlıya alındıktan sonra bile sürekli olarak ödül sinyallerine (veya bunların temsilcilerine) erişim gerektirir.

Bu durum pratik uygulamalarda ciddi sorunlara yol açabilir. Gerçek dünya senaryolarında, bir yapay zeka sistemi devreye alındıktan sonra sürekli ödül sinyali sağlamak her zaman mümkün olmayabilir. Bu sınırlama, MORL sistemlerinin endüstriyel uygulamalarını ve yaygınlaşmasını önemli ölçüde etkileyebilir.

Özgün Kaynak
arXiv (CS + AI)
Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.