Yazılım geliştirme dünyasında, sistemlerin sağlıklı çalışmasını izlemek ve hataları tespit etmek için günlük kaydı (logging) kritik öneme sahiptir. Geliştiriciler, hangi noktaya günlük kaydı yerleştireceği, hangi API ve önem seviyesi kullanacağı gibi karmaşık kararlar vermek zorundadır.

Yeni yayınlanan araştırma, bu süreci otomatikleştirmeyi hedefleyen yapay zeka modellerinin mevcut durumunu değerlendiriyor. Araştırmacılar, bugüne kadar yapılan çalışmaların ağırlıklı olarak Java programlama dili üzerinde odaklandığını ve bu durumun yanıltıcı sonuçlar doğurabileceğini belirtiyor.

MultiLogBench benchmark'ı, bu eksikliği gidermek için altı farklı programlama dili ekosisteminden toplanan kapsamlı veri seti sunuyor. 63 bin 965 üretim kodu örneği, 744 revizyon geçmişi vakası ve güçlülük analizi için dönüştürülmüş dal yapısı içeren bu veri seti, gerçek yazılım geliştirme süreçlerini yansıtıyor.

Çalışmada yedi güncel büyük dil modeli test edildi. Sonuçlar, tek dil odaklı eğitim verisiyle geliştirilen modellerin çok dilli ortamlarda beklenen performansı gösteremediğini ortaya koyuyor. Bu bulgular, yazılım geliştirme araçlarının geliştirilmesinde daha kapsayıcı yaklaşımların benimsenmesi gerektiğine işaret ediyor.