Yazılım geliştirme dünyasında sayısız analiz aracı bulunmasına rağmen, bunları farklı açık kaynak projelere uygulamak hala büyük bir meydan okuma teşkil ediyor. Ortam kurulumu, bağımlılık yönetimi ve araç yapılandırması gibi karmaşık süreçler nedeniyle geliştiriciler sıklıkla zorluklarla karşılaşıyor.
Bu soruna çözüm arayan araştırmacılar, büyük dil modellerini (LLM) kullanan yapay zeka ajanlarının otomatik yazılım analizi görevlerindeki etkinliğini sistematik olarak incelemek için AnalysisBench adlı kapsamlı bir kıyaslama sistemi geliştirdi.
AnalysisBench, 7 farklı analiz aracı ve 10 çeşitli C/C++ ile Java projesini kapsayan toplam 35 araç-proje çiftinden oluşuyor. Her bir çift için manuel olarak hazırlanmış referans kurulum prosedürleri bulunuyor. Bu kıyaslama sisteminde, dört farklı ajan mimarisi ve dört LLM backend'i test edildi.
Araştırmanın öne çıkan sonucu, özel olarak geliştirilen AnalysisAgent'ın manuel doğrulama testlerinde kayda değer başarı oranları elde etmesi oldu. Bu ajan, analiz araçlarını kurma, yapılandırma ve anlamlı analiz çıktıları üretme konularında etkili performans gösterdi.
Bu çalışma, yapay zeka ajanlarının yazılım geliştirme süreçlerini otomatikleştirme konusundaki potansiyelini ortaya koyarak, gelecekteki yazılım analizi araçlarının gelişimi için önemli bir temel oluşturuyor.