Teknoloji & Yapay Zeka

Büyük Dil Modelleri Gerçek Dünya Kodlarını Analiz Etmekte Ne Kadar Başarılı?

Araştırmacılar, yapay zeka sistemlerinin matematik problemlerindeki başarısının gerçek yazılım kodlarını anlama yetisini gösterip göstermediğini test etmek için yeni bir değerlendirme sistemi geliştirdi. Amazon'un kripto kütüphanesi s2n-bignum'dan türetilen bu test, büyük dil modellerinin endüstriyel seviyedeki assembly kodlarını ne kadar iyi analiz edebildiğini ölçüyor. Sistem, matematiksel teoremler yerine gerçek dünyada kullanılan karmaşık yazılımları temel alıyor ve AI'ın pratik programlama görevlerindeki gerçek performansını ortaya çıkarıyor.

Yapay zeka alanında büyük dil modelleri matematik problemlerinde etkileyici sonuçlar elde ederken, araştırmacılar bu başarının gerçek yazılım projelerinde de geçerli olup olmadığını sorguluyor. Bu soruya cevap bulmak için yeni bir değerlendirme sistemi geliştirildi.

s2n-bignum-bench adlı bu test sistemi, Amazon Web Services'in kripto kütüphanesi s2n-bignum'u temel alıyor. Bu kütüphane, hızlı şifreleme işlemleri için assembly dilinde yazılmış rutinler içeriyor ve HOL Light formal doğrulama sistemiyle matematiksel olarak doğruluğu kanıtlanmış durumda.

Geleneksel AI testleri genellikle yarışma tarzı matematik problemlerine odaklanıyor. Ancak bu yeni yaklaşım, endüstriyel seviyede kullanılan gerçek kodları analiz etme yetisini ölçüyor. Test, iki temel beceriyi değerlendiriyor: programın doğru davranışını matematiksel bir önerme olarak tanımlama ve bu önermenin doğruluğunu kanıtlama.

Amazon'un Otomatik Mantık Yürütme Grubu'nun önemli başarılarından biri olan s2n-bignum kütüphanesinin doğrulanması, formal yöntemler alanında büyük bir adım olmuştu. Şimdi bu başarı, yapay zeka sistemlerinin gerçek dünya yazılımlarını ne kadar iyi anlayabildiğini test etmek için bir ölçüt haline geliyor.

Bu değerlendirme sistemi, AI'ın teorik matematik yetenekleri ile pratik programlama görevlerindeki performansı arasındaki farkı ortaya çıkarmayı hedefliyor.

Özgün Kaynak
arXiv (CS + AI)
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.