Yapay zeka modelleri kod hata ayıklama konusunda başarısız: Yeniden yazıyor ama düzeltmiyor

Araştırmacılar, günümüzün en gelişmiş yapay zeka modellerinin kod hata ayıklama konusunda beklenenin çok altında performans sergilediğini ortaya çıkardı. GPT ve DeepSeek gibi önde gelen modeller, hatalı kodları düzeltmek yerine baştan yeniden yazma eğilimi gösteriyor. Yeni geliştirilen Precise Debugging Benchmark (PDB) test sistemi, bu modellerin birim testlerden %76 oranında geçmesine rağmen, hassaslık açısından %45'in altında kaldığını gösteriyor. Bu durum, yapay zekanın gerçek programlama iş akışlarında kullanımı açısından önemli bir sınırlama oluşturuyor.

Yapay zeka modellerinin programlama yetenekleri hızla gelişirken, kod hata ayıklama konusunda ciddi eksiklikler bulunduğu ortaya çıktı. Araştırmacılar tarafından geliştirilen yeni bir değerlendirme sistemi, mevcut en gelişmiş modellerin hataları tam olarak tespit edip düzeltemediklerini gösteriyor.

Precise Debugging Benchmark (PDB) adlı bu yeni test sistemi, herhangi bir kodlama veri setini otomatik olarak hata ayıklama testine dönüştürebiliyor. Sistem, doğrulanmış atomik hatalar oluşturup bunları tek veya çok satırlı hata programlarına dönüştürüyor. Bu sayede modellerin gerçek hata ayıklama yetenekleri hassas bir şekilde ölçülebiliyor.

Test sonuçları dikkat çekici: GPT-5.1-Codex ve DeepSeek-V3.2-Thinking gibi önde gelen modeller birim testlerden %76'nın üzerinde başarı oranıyla geçiyor. Ancak düzenleme düzeyinde hassaslık değerleri %45'in altında kalıyor. Bu, modellerin gerekli değişiklikleri yapmaktan ziyade kodları baştan yeniden yazdığı anlamına geliyor.

Araştırma, iki önemli ölçüt tanımlıyor: düzenleme düzeyinde hassaslık ve hata düzeyinde geri çağırma. Bu ölçütler, kaç gerekli düzenleme yapıldığını ve kaç hatanın çözüldüğünü belirliyor. Sonuçlar, yapay zekanın gerçek programlama ortamlarında daha etkili kullanımı için hata ayıklama yeteneklerinin geliştirilmesi gerektiğini ortaya koyuyor.