Yapay zeka ajanları artık kendi yazdıkları kodları test edebiliyor

Araştırmacılar, büyük dil modellerinin kod yazabildiği ama doğruluğunu kontrol edemediği sorununa çözüm getiren AgentForge adlı sistemi geliştirdi. Bu yenilikçi çerçeve, beş farklı AI ajanının koordineli çalışmasıyla yazılım geliştirme sürecini otomatikleştiriyor. Planlayıcı, kodlayıcı, test edici, hata ayıklayıcı ve eleştiri ajanlarından oluşan ekip, her kod değişikliğini güvenli bir test ortamında çalıştırarak doğruluğunu kontrol ediyor. Sistem, yazılım mühendisliğini iteratif bir karar süreci olarak modelleyerek, geleneksel token tabanlı yaklaşımlar yerine gerçek çalıştırma geri bildirimini kullanıyor. SWE-BENCH Lite test setinde %40 başarı oranına ulaşan AgentForge, tek ajan sistemlerinden 26-28 puan daha iyi performans gösteriyor. Bu gelişme, AI destekli yazılım geliştirmede önemli bir adım teşkil ediyor.

Yapay zeka destekli yazılım geliştirme alanında önemli bir ilerleme kaydedildi. Büyük dil modellerinin makul görünen kodlar üretebilmesine rağmen bu kodların doğruluğunu test edememesi sorunu, araştırmacıları yeni çözümler aramaya yöneltmişti. Mevcut çoklu ajan sistemleri ya kod çalıştırmayı simüle ediyor ya da doğrulama işlemini isteğe bağlı hale getiriyordu.

AgentForge adlı yeni sistem, bu soruna 'çalıştırma temelli doğrulama' yaklaşımıyla çözüm getiriyor. Sistemin temel prensibi basit ama etkili: her kod değişikliği, sisteme entegre edilmeden önce güvenli bir test ortamında çalıştırılmalı ve başarılı olmalı. Bu yaklaşım, yazılımın güvenilirliğini önemli ölçüde artırıyor.

Sistem beş farklı AI ajanının koordineli çalışmasına dayanıyor. Planlayıcı ajan genel stratejiyi belirlerken, kodlayıcı ajan yazılımı geliştiriyor. Test edici ajan kod kalitesini kontrol ederken, hata ayıklayıcı sorunları tespit edip çözüyor. Eleştiri ajanı ise tüm süreci gözden geçirerek iyileştirme önerileri sunuyor. Tüm bu ajanlar Docker tabanlı güvenli bir test ortamında ortak bellekle koordine çalışıyor.

Araştırmacılar, yazılım mühendisliğini depo durumları üzerinde iteratif bir karar süreci olarak modelledi. Bu yaklaşımda, geleneksel sonraki token olasılığı yerine gerçek çalıştırma geri bildirimi daha güçlü bir öğrenme sinyali sağlıyor. SWE-BENCH Lite testlerinde sistem %40 başarı oranına ulaşarak, tek ajan sistemlerden önemli ölçüde daha iyi performans gösterdi.