Yapay zeka destekli kod üretim sistemlerinin değerlendirilmesinde kullanılan mevcut yöntemler, önemli bir güvenlik açığını gözden kaçırıyor. Araştırmacıların geliştirdiği ContractEval benchmark sistemi, bu kritik soruna dikkat çekiyor.
Günümüzde yapay zeka kod üreticilerinin başarısı, kodların önceden belirlenmiş doğru girdilerle ne kadar iyi çalıştığına bakılarak ölçülüyor. Ancak bu yaklaşım, kodların hatalı, eksik veya zararlı girdilerle karşılaştığında nasıl davranacağını test etmiyor. Gerçek dünyada ise yazılımlar her türlü beklenmedik durumla karşılaşabilir.
ContractEval sistemi, bu boşluğu doldurmak için tasarlandı. HumanEval+ ve MBPP+ veri kümelerini temel alarak oluşturulan sistem, 364 farklı programlama görevi içeriyor. Her görev üç ana bileşenden oluşuyor: açıkça belirtilen güvenlik koşulları, bu koşulları test eden özel durumlar ve referans kodlar.
Sistem, büyük dil modelleri ile SMT çözücüleri birleştiren neuro-sembolik bir yaklaşım kullanıyor. Bu yöntem, üretilen kodun sadece doğru çalışıp çalışmadığını değil, aynı zamanda belirlenen güvenlik koşullarına uyup uymadığını da değerlendiriyor.
Bu gelişme, yapay zeka destekli kod üretiminin güvenilirliğini artırmak için kritik öneme sahip. Özellikle güvenlik açısından hassas uygulamalarda kullanılacak kodların daha sağlam değerlendirilmesini mümkün kılıyor.