Yapay zeka alanında büyük dil modellerinin akıl yürütme yeteneklerini geliştirmek için yeni bir yaklaşım ortaya çıktı. LEPO (Latent Reasoning Policy Optimization) adı verilen bu framework, modellerin sürekli uzayda daha zengin bilgi işleme kapasitesi kazanmasını hedefliyor.
Mevcut gizli akıl yürütme yöntemlerinin temel sorunu, rastgele örnekleme olmaksızın deterministik çıkarımlara sıkışıp kalmaları ve çeşitli çözüm yolları keşfedememeleriydi. Araştırmacılar bu problemi, Gumbel-Softmax tekniği kullanarak kontrollü rastgelelik enjekte ederek çözdü. Bu sayede modeller keşfetme kapasitelerini yeniden kazanarak pekiştirmeli öğrenme ile daha uyumlu hale geliyor.
LEPO'nun en önemli özelliği, pekiştirmeli öğrenmeyi doğrudan sürekli gizli temsiller üzerinde uygulayabilmesi. Sistem iki aşamada çalışıyor: İlk aşamada çeşitli yörünge örneklemesi için rastgeleliği koruyor, ikinci aşamada ise hem gizli temsilller hem de ayrık çıktılar için birleşik gradyan tahmini oluşturuyor.
Bu gelişme, yapay zeka modellerinin daha esnek düşünme süreçleri geliştirmesi ve karmaşık problemlerde alternatif çözüm yolları bulabilmesi açısından önemli bir adım teşkil ediyor.