Yapay zeka araştırmacıları, büyük dil modellerinin matematik yeteneklerini değerlendirmek için yeni bir yaklaşım geliştirdi. MATH-PT adlı bu yenilikçi veri seti, AI'ın çok dilli matematik problemlerini çözme kapasitesini test etmeyi amaçlıyor.
Araştırmacılar, mevcut matematik değerlendirme sistemlerinin büyük oranda İngilizce odaklı olduğuna dikkat çekerek, bu alanda ciddi bir dil adaletsizliği bulunduğunu belirtiyor. Bu sorunu çözmek amacıyla, Portekiz ve Brezilya'dan toplanan 1.729 özgün matematik problemini içeren MATH-PT veri setini oluşturdular.
Veri seti, matematik olimpiyatları, yarışmalar ve sınavlardan derlenen yüksek kaliteli problemlerden oluşuyor. Bu yaklaşım, sadece İngilizce'den çevrilmiş sorular yerine, doğrudan Portekizce yazılmış özgün problemleri kullanması açısından önemli bir yenilik getiriyor.
Güncel AI modellerinin performans testleri dikkat çekici sonuçlar ortaya çıkardı. En gelişmiş reasoning modelleri çoktan seçmeli sorularda başarılı performans sergilerken, açık uçlu sorularda performanslarının düştüğü gözlemlendi. Bu durum, AI modellerinin farklı dillerdeki matematik problemleriyle karşılaştıklarında zorlandığını gösteriyor.
Araştırma, yapay zeka alanında çok dilli yaklaşımların önemini vurgulayarak, gelecekteki AI sistemlerinin daha kapsayıcı olması gerekliliğini ortaya koyuyor.