Stanford ve diğer önde gelen üniversitelerden araştırmacılar, yapay zeka tarafından üretilen kodların güvenilirliğini artırmak için devrim niteliğinde bir sistem geliştirdi. VeriEquivBench adı verilen bu platform, büyük dil modellerinin yazdığı kodların matematiksel olarak doğru olup olmadığını otomatik şekilde değerlendirebiliyor.
Geleneksel yöntemler, AI'nın yazdığı kodu değerlendirmek için uzmanların elle hazırladığı referans kodlarla karşılaştırma yapıyordu. Bu süreç hem zaman alıcı hem de pahalıydı, ayrıca sadece birkaç yüz basit problemle sınırlı kalıyordu. Yeni sistem ise 'eşdeğerlik skoru' adı verilen matematiksel bir metrikle bu sorunu çözüyor.
VeriEquivBench, 2,389 karmaşık algoritma problemini içeren kapsamlı bir test havuzu sunuyor. Bu problemler, mevcut AI modellerinin kod üretme ve mantıksal akıl yürütme yeteneklerindeki zayıflıkları tespit etmek için özel olarak tasarlandı. Sistem, Dafny gibi formal programlama dilleri kullanarak kodun spesifikasyonlarla uyumunu matematiksel kesinlikle doğrulayabiliyor.
Bu gelişme özellikle kritik sistemlerde çalışan yazılımlar için büyük önem taşıyor. Havacılık, tıbbi cihazlar ve otonom araçlar gibi alanlarda kullanılacak kodların hatasız olması hayati önemde. VeriEquivBench, AI'nın bu tür kritik uygulamalarda güvenle kullanılması yolunda önemli bir kilometre taşı sayılıyor.