Yapay zeka modellerinin programlama yetenekleri hızla gelişirken, kod hata ayıklama konusunda ciddi eksiklikler bulunduğu ortaya çıktı. Araştırmacılar tarafından geliştirilen yeni bir değerlendirme sistemi, mevcut en gelişmiş modellerin hataları tam olarak tespit edip düzeltemediklerini gösteriyor.
Precise Debugging Benchmark (PDB) adlı bu yeni test sistemi, herhangi bir kodlama veri setini otomatik olarak hata ayıklama testine dönüştürebiliyor. Sistem, doğrulanmış atomik hatalar oluşturup bunları tek veya çok satırlı hata programlarına dönüştürüyor. Bu sayede modellerin gerçek hata ayıklama yetenekleri hassas bir şekilde ölçülebiliyor.
Test sonuçları dikkat çekici: GPT-5.1-Codex ve DeepSeek-V3.2-Thinking gibi önde gelen modeller birim testlerden %76'nın üzerinde başarı oranıyla geçiyor. Ancak düzenleme düzeyinde hassaslık değerleri %45'in altında kalıyor. Bu, modellerin gerekli değişiklikleri yapmaktan ziyade kodları baştan yeniden yazdığı anlamına geliyor.
Araştırma, iki önemli ölçüt tanımlıyor: düzenleme düzeyinde hassaslık ve hata düzeyinde geri çağırma. Bu ölçütler, kaç gerekli düzenleme yapıldığını ve kaç hatanın çözüldüğünü belirliyor. Sonuçlar, yapay zekanın gerçek programlama ortamlarında daha etkili kullanımı için hata ayıklama yeteneklerinin geliştirilmesi gerektiğini ortaya koyuyor.