Yapay zeka alanında büyük dil modelleri matematik problemlerinde etkileyici sonuçlar elde ederken, araştırmacılar bu başarının gerçek yazılım projelerinde de geçerli olup olmadığını sorguluyor. Bu soruya cevap bulmak için yeni bir değerlendirme sistemi geliştirildi.
s2n-bignum-bench adlı bu test sistemi, Amazon Web Services'in kripto kütüphanesi s2n-bignum'u temel alıyor. Bu kütüphane, hızlı şifreleme işlemleri için assembly dilinde yazılmış rutinler içeriyor ve HOL Light formal doğrulama sistemiyle matematiksel olarak doğruluğu kanıtlanmış durumda.
Geleneksel AI testleri genellikle yarışma tarzı matematik problemlerine odaklanıyor. Ancak bu yeni yaklaşım, endüstriyel seviyede kullanılan gerçek kodları analiz etme yetisini ölçüyor. Test, iki temel beceriyi değerlendiriyor: programın doğru davranışını matematiksel bir önerme olarak tanımlama ve bu önermenin doğruluğunu kanıtlama.
Amazon'un Otomatik Mantık Yürütme Grubu'nun önemli başarılarından biri olan s2n-bignum kütüphanesinin doğrulanması, formal yöntemler alanında büyük bir adım olmuştu. Şimdi bu başarı, yapay zeka sistemlerinin gerçek dünya yazılımlarını ne kadar iyi anlayabildiğini test etmek için bir ölçüt haline geliyor.
Bu değerlendirme sistemi, AI'ın teorik matematik yetenekleri ile pratik programlama görevlerindeki performansı arasındaki farkı ortaya çıkarmayı hedefliyor.