Yapay zeka alanında önemli bir gelişme yaşandı. Araştırmacılar, dil modellerinin ürettiği mantık yürütme süreçlerindeki doğruluk sorunlarını çözmek için Prolog programlama dilini kullanarak yenilikçi bir yaklaşım geliştirdi.

Çalışmada, Qwen2.5-3B-Instruct modeli, Prolog'u harici bir sembolik mantık aracı olarak kullanacak şekilde eğitildi. Bu eğitim sürecinde Group Relative Policy Optimization (GRPO) adlı pekiştirmeli öğrenme yöntemi kullanılarak, GSM8K veri setinin temizlenmiş versiyonu üzerinde çalışıldı. Araştırmacılar bu temizlenmiş veri setini 'gsm8k-prolog-prover' adıyla bilim camiasının kullanımına sundu.

Araştırma ekibi, farklı komut yapıları, ödül kompozisyonları ve çıkarım protokollerini sistematik olarak test etti. Sonuçlar oldukça çarpıcı: sadece 3 milyar parametreli bu model, MMLU-STEM ve MMLU-Pro gibi zorlu testlerde, 7 milyar parametreli modellerin az örnekli öğrenme performansıyla yarışacak düzeyde başarı gösterdi.

Ancak çalışma kritik bir ödünleşme ortaya çıkardı: Sadece doğruluk için optimize edilen yapılandırmalar, mantık yürütme sürecini doğal dile devredip Prolog'u yalnızca final hesaplama için kullanma eğiliminde. Bu durum, AI sistemlerinin şeffaflığı ve denetlenebilirliği açısından önemli sonuçlar doğuruyor.

Bu çalışma, yapay zeka modellerinin hem daha doğru hem de daha şeffaf olması yolunda atılan önemli bir adım olarak değerlendiriliyor.