Günümüzün en gelişmiş yapay zeka modelleri, görsel ve işitsel içerikleri anlayabilme konusunda etkileyici yetenekler sergilerken, temel matematik işlemlerinde beklenmedik zorluklar yaşadıkları ortaya çıktı.

Araştırmacılar, GPT-4V, Claude-3 ve Gemini gibi multimodal büyük dil modellerinin çok basamaklı çarpma işlemlerinde ciddi performans sorunları yaşadığını keşfetti. Daha da ilginç olanı, aynı matematik probleminin farklı formatlarda sunulmasının model performansını dramatik şekilde etkilemesi.

Çalışma kapsamında geliştirilen yeni bir değerlendirme sistemi, sayıların rakam, kelime, görsel ve ses formatlarında sunulduğu kontrollü testler içeriyor. Araştırmacılar, 'aritmetik yük' adını verdikleri yeni bir metrik geliştirerek, toplam basamak sayısı ile sıfır olmayan basamak sayısının çarpımını hesaplayarak işlem karmaşıklığını ölçtüler.

Sonuçlar oldukça çarpıcı: Aritmetik yük 100'ü aştığında, modellerin doğruluk oranı neredeyse sıfıra düşüyor. Bu durum, AI modellerinin gerçek matematiksel akıl yürütme yeteneklerinin sanıldığından çok daha sınırlı olduğunu gösteriyor.

Bu bulgular, yapay zeka teknolojisinin matematiksel problemleri çözmek için kullanıldığı alanlarda dikkatli değerlendirme yapılması gerektiğini vurguluyor ve AI güvenilirliği konusunda önemli sorular ortaya koyuyor.