Yapay Zeka Kod Üretiminde Yeni Yöntem: Fonksiyonel Çoğunluk Oylaması

Araştırmacılar, büyük dil modellerinin kod yazma başarısını artıran yeni bir teknik geliştirdi. Fonksiyonel Çoğunluk Oylaması (FMV) adı verilen bu yöntem, yapay zekanın ürettiği birden fazla kod çözümü arasından en uygun olanını seçmek için fonksiyonel konsensüs yaklaşımını kullanıyor. Sistem, farklı kod çözümlerini test girdileri üzerinde çalıştırarak çalışma zamanı imzalarını karşılaştırıyor ve en temsili çözümü belirliyor. LiveCodeBench platformunda yapılan testlerde FMV'nin performansı önemli ölçüde artırdığı, ancak hesaplama maliyetini fazla yükseltmediği görüldü. Ayrıca araştırmacılar bu tekniği Test-Zamanı Pekiştirmeli Öğrenme için de uyarladılar ve belirli görevlerde başarı oranını artırdıklarını gözlemlediler.

Yapay zeka alanında kod üretimi konusunda çalışan araştırmacılar, büyük dil modellerinin programlama performansını artıran yenilikçi bir yöntem geliştirdi. Fonksiyonel Çoğunluk Oylaması (FMV) olarak adlandırılan bu teknik, yapay zekanın ürettiği birden fazla kod alternatifi arasından en uygun çözümü seçmek için fonksiyonel konsensüs prensibini kullanıyor.

FMV'nin çalışma mantığı oldukça ilginç: sistem, aynı problem için üretilen farklı kod çözümlerini test girdileri üzerinde çalıştırarak her birinin çalışma zamanı imzasını elde ediyor. Bu imzaları karşılaştırarak hangi çözümün en temsili ve güvenilir olduğunu belirliyor. Bu yaklaşım, sadece sözdizimsel benzerliğe değil, fonksiyonel doğruluğa odaklandığı için daha etkili sonuçlar üretiyor.

LiveCodeBench platformunda gerçekleştirilen deneyler, FMV'nin kod üretim başarısını önemli ölçüde artırdığını gösterdi. Özellikle dikkat çeken nokta, bu başarı artışının hesaplama maliyetinde büyük bir artışa neden olmaması. Bu durum, yöntemin pratik uygulamalar için oldukça uygun olduğunu işaret ediyor.

Araştırmacılar ayrıca bu tekniği Test-Zamanı Pekiştirmeli Öğrenme alanında da denedi. Belirli görevlerde pass@1 metriğinde iyileşme gözlemleseler de, temel modelin performans sınırlarını aşan kendini geliştirme davranışı tespit edemediler.