Modern yazılım geliştirme süreçlerinin vazgeçilmez parçası haline gelen yapay zeka botlarının güvenilirliği, kapsamlı bir araştırmayla mercek altına alındı. Araştırmacılar, GitHub Actions platformunda 2.355 farklı yazılım deposundan toplam 61.837 otomatik iş akışını analiz ederek, AI botların kod geliştirmedeki performansını değerlendirdi.
İncelenen beş farklı AI bot arasında dikkat çekici performans farkları ortaya çıktı. Microsoft'un Copilot'u ve OpenAI'nin Codex'i sırasıyla %93 ve %94 başarı oranlarıyla zirvede yer alırken, diğer botlar daha düşük güvenilirlik gösterdi. Bu sonuçlar, farklı AI sistemlerinin kod kalitesi ve entegrasyon başarısında önemli farklılıklar bulunduğunu ortaya koyuyor.
Araştırmanın en ilginç bulgularından biri, AI botların katkı sıklığı ile iş akışı başarısı arasındaki ters korelasyon oldu. Botların daha fazla kod değişikliği önerdiği projelerde, otomatik entegrasyon süreçlerinin başarısızlık oranının arttığı gözlemlendi. Bu durum, AI destekli geliştirme süreçlerinde miktar-kalite dengesinin önemini vurguluyor.
Bulgular, yazılım geliştirme ekiplerinin AI bot seçimi ve kullanım stratejilerini optimize etmeleri için değerli veriler sunuyor. Özellikle kritik projelerde bot güvenilirliğinin dikkate alınması gerektiği sonucuna varılan çalışma, AI destekli yazılım geliştirmenin geleceği için önemli perspektifler açıyor.