Yapay zekanın hızla geliştiği bu dönemde, araştırmacılar büyük dil modellerinin (LLM) geleneksel optimizasyon algoritmalarının yerini alıp alamayacağını merak ediyordu. Stanford Üniversitesi'nden araştırmacılar, bu soruya yanıt bulmak için kapsamlı bir karşılaştırma çalışması gerçekleştirdi.
Çalışmada, Claude Opus 4.6 ve Gemini 3.1 Pro Preview gibi en gelişmiş LLM'ler, CMA-ES ve TPE gibi klasik hiperparametre optimizasyon (HPO) yöntemleriyle karşılaştırıldı. Araştırmacılar, autoresearch adlı bir platform kullanarak bu sistemlerin küçük bir dil modelinin hiperparametrelerini optimize etme becerilerini test etti.
Sonuçlar şaşırtıcıydı: Sabit bir arama alanı tanımlandığında, klasik yöntemler LLM tabanlı ajanları tutarlı bir şekilde geride bıraktı. LLM'lerin kaynak kodu doğrudan düzenleme yeteneği verildiğinde aradaki fark daraldı, ancak klasik yöntemlere yetişemediler.
Araştırmacılar, LLM'lerin temel zayıflığının denemeler arasında optimizasyon durumunu takip etmekte zorlanması olduğunu keşfetti. Klasik yöntemler ise LLM'lerin sahip olduğu alan bilgisinden yoksundu.
Bu sorunu çözmek için ekip, her iki yaklaşımın güçlü yanlarını birleştiren 'Centaur' adlı hibrit bir sistem geliştirdi. Bu yaklaşım, gelecekte AI ve geleneksel algoritmaların işbirliğine dayalı çözümler için yeni bir yol açıyor.