Yazılım geliştirmede REST API testlerinin kalitesini ölçmek, özellikle kaynak koduna erişimin olmadığı durumlarda büyük bir zorluk oluşturuyor. Araştırmacılar bu soruna çözüm olarak log kapsamı metriklerini öne sürdü.
Çalışma kapsamında üç farklı API test üretim stratejisi karşılaştırıldı: Evrimsel hesaplama temelli EvoMaster, büyük dil modelleri Claude Opus 4.6 ve GPT-5.2-Codex, ve insan yazımı Locust yük testleri. Light-OAuth2 yetkilendirme mikro hizmet sistemi üzerinde yapılan deneylerde ilginç sonuçlar elde edildi.
Claude Opus 4.6, insan yazımı testlere kıyasla %28,4 daha fazla benzersiz log şablonu keşfetti ve en başarılı strateji olarak öne çıktı. EvoMaster %26,1, GPT-5.2-Codex ise %38,6 daha az etkili performans gösterdi.
Araştırmanın önemli bulgularından biri, farklı stratejilerin birleştirilmesinin toplam test kapsamını artırmasıydı. İnsan yazımı testler ile Claude Opus 4.6 testlerinin kombinasyonu, gözlemlenen log kapsamını önemli ölçüde genişletti.
Bu çalışma, çok dilli teknoloji yığınlarında API test kalitesini değerlendirmek için pratik bir yaklaşım sunuyor ve yapay zeka destekli test üretiminin gelecekte daha da gelişebileceğini gösteriyor.