Büyük dil modellerinin (LLM) gerçek dünya uygulamalarında ajan olarak çalışabilmesi için zengin ve çeşitli etkileşim ortamlarına ihtiyaç duyuluyor. Ancak bu süreçte karşılaşılan temel zorluklar, araştırmacıları yeni çözümler aramaya yöneltiyor.
Geleneksel yaklaşımlarda gerçek sistemlere erişim genellikle kısıtlı oluyor, LLM ile simüle edilen ortamlar halüsinasyon ve tutarsızlık sorunları yaşıyor, manuel olarak oluşturulan sandbox'ların ölçeklendirilmesi ise oldukça zor. Bu sorunlara çözüm getirmek amacıyla geliştirilen EnvScaler, programatik sentez yoluyla ölçeklenebilir araç-etkileşim ortamları oluşturan otomatik bir çerçeve sunuyor.
EnvScaler sistemi iki ana bileşenden oluşuyor. İlk bileşen olan SkelBuilder, konu madenciliği, mantık modellemesi ve kalite değerlendirmesi aracılığıyla çeşitli ortam iskeletleri inşa ediyor. İkinci bileşen ScenGenerator ise her ortam için çoklu görev senaryoları ve kural tabanlı yörünge doğrulama fonksiyonları üretiyor.
Araştırma ekibi, EnvScaler ile 191 farklı ortam ve yaklaşık 7 bin senaryo sentezledi. Bu ortamlar, Qwen3 serisi modellerin Denetimli İnce Ayar (SFT) ve Pekiştirmeli Öğrenme (RL) süreçlerinde başarıyla uygulandı. Bu gelişme, yapay zeka ajanlarının karmaşık görevlerde daha etkili performans sergilemesi için önemli bir adım teşkil ediyor.