Yapay zeka sistemlerinin akıl yürütme kapasitelerini geliştirme konusunda önemli bir ilerleme kaydedildi. Araştırmacılar, geleneksel açık mantık zincirlerinin alternatifi olan 'gizli mantık' yaklaşımını pekiştirmeli öğrenme ile birleştirmeyi başardı.
Gizli mantık sistemi, ara düşünce adımlarını sürekli matematiksel temsillere dönüştürerek mantık zincirlerini önemli ölçüde kısaltıyor. Bu yaklaşım, geleneksel yöntemlere kıyasla çok daha verimli işlem gücü kullanımı sağlıyor. Ancak bu alandaki pekiştirmeli öğrenme uygulamaları şimdiye kadar oldukça kararsız sonuçlar veriyordu.
Araştırma ekibi, Grup Göreceli Politika Optimizasyonu (GRPO) tekniğini gizli akıl yürütme sistemlerine uyarlarken üç temel sorunu tespit etti. Bunlar arasında geçerli gizli manifoldların yokluğu, keşif-optimizasyon uyumsuzluğı ve gizli karışım kapalılığı sorunu yer alıyor. Bu sorunlar, sistemin kontrolsüz keşif sırasında geçerli matematik uzayından çıkması, yörünge düzeyindeki ödüllerin yanlış token güncellemelerine yol açması gibi teknik zorluklara neden oluyordu.
Geliştirilen çözüm, bu üç sorunu birlikte ele alarak gizli mantık sistemlerinin pekiştirmeli öğrenme ile kararlı şekilde eğitilmesini mümkün kılıyor. Bu gelişme, yapay zekanın daha hızlı ve verimli düşünmesi için kritik bir adım teşkil ediyor.