Yapay zeka ajanları yazılım analizi görevlerinde test edildi

Araştırmacılar, büyük dil modellerini (LLM) temel alan yapay zeka ajanlarının otomatik yazılım analizi görevlerindeki başarısını ölçmek için AnalysisBench adlı yeni bir kıyaslama sistemi geliştirdi. Yazılım analizi araçlarının çeşitli açık kaynak projelere uygulanması, ortam kurulumu, bağımlılık çözümü ve araç yapılandırması gibi karmaşık süreçler nedeniyle oldukça zor bir görevdir. Bu çalışmada, 7 farklı analiz aracı ve 10 çeşitli C/C++ ile Java projesini kapsayan 35 araç-proje çifti üzerinde dört farklı ajan mimarisi test edildi. Özel olarak geliştirilen AnalysisAgent'ın manuel doğrulama ile yüksek başarı oranları elde ettiği rapor edildi. Bu araştırma, yapay zeka ajanlarının karmaşık yazılım geliştirme süreçlerini otomatikleştirme potansiyelini gösteriyor.

Yazılım geliştirme dünyasında sayısız analiz aracı bulunmasına rağmen, bunları farklı açık kaynak projelere uygulamak hala büyük bir meydan okuma teşkil ediyor. Ortam kurulumu, bağımlılık yönetimi ve araç yapılandırması gibi karmaşık süreçler nedeniyle geliştiriciler sıklıkla zorluklarla karşılaşıyor.

Bu soruna çözüm arayan araştırmacılar, büyük dil modellerini (LLM) kullanan yapay zeka ajanlarının otomatik yazılım analizi görevlerindeki etkinliğini sistematik olarak incelemek için AnalysisBench adlı kapsamlı bir kıyaslama sistemi geliştirdi.

AnalysisBench, 7 farklı analiz aracı ve 10 çeşitli C/C++ ile Java projesini kapsayan toplam 35 araç-proje çiftinden oluşuyor. Her bir çift için manuel olarak hazırlanmış referans kurulum prosedürleri bulunuyor. Bu kıyaslama sisteminde, dört farklı ajan mimarisi ve dört LLM backend'i test edildi.

Araştırmanın öne çıkan sonucu, özel olarak geliştirilen AnalysisAgent'ın manuel doğrulama testlerinde kayda değer başarı oranları elde etmesi oldu. Bu ajan, analiz araçlarını kurma, yapılandırma ve anlamlı analiz çıktıları üretme konularında etkili performans gösterdi.

Bu çalışma, yapay zeka ajanlarının yazılım geliştirme süreçlerini otomatikleştirme konusundaki potansiyelini ortaya koyarak, gelecekteki yazılım analizi araçlarının gelişimi için önemli bir temel oluşturuyor.