Yapay zeka modellerinin kodlama becerilerini geliştirmek için kullanılan kod sandbox sistemleri, son yıllarda kritik bir altyapı haline geldi. Bu sistemler, hem pekiştirmeli öğrenme eğitimi hem de değerlendirme süreçlerinde doğrulanabilir geri bildirim sağlıyor. Ancak mevcut sistemler, yüksek eşzamanlı iş yükleri altında doğru doğrulama ve verimlilik konularında yetersiz kalıyor.
Araştırmacılar bu soruna çözüm olarak ScaleBox adlı yeni bir sistem geliştirdi. ScaleBox, büyük ölçekli kod eğitiminde karşılaşılan sınırlamaları aşmak üzere tasarlanmış yüksek doğruluklu ve ölçeklenebilir bir platform sunuyor.
Sistemin temel özellikleri arasında otomatik özel yargıç üretimi ve yönetimi, test durumları arasında ince taneli paralel yürütme, kesintisiz çok düğümlü koordinasyon ve tekrarlanabilir kıyaslama için yapılandırma odaklı değerlendirme paketi yer alıyor.
Yapılan deneyler, ScaleBox'ın kod doğrulama doğruluğunu ve verimliliğini önemli ölçüde artırdığını gösteriyor. RLVR deneyleri de sistemin LiveCodeBench performansını ve eğitim istikrarını belirgin şekilde iyileştirdiğini ortaya koyuyor. Bu gelişme, AI sistemlerinin kod yazma yeteneklerinin geliştirilmesi açısından önemli bir adım olarak değerlendiriliyor.