Multimodal AI modelleri temel matematikte neden başarısız oluyor?

Stanford araştırmacıları, gelişmiş çok modallı yapay zeka modellerinin görsel, işitsel ve metin tabanlı matematik problemlerinde beklenmedik zorluklarla karşılaştığını ortaya çıkardı. GPT-4V, Claude-3 ve Gemini gibi modeller, sayıları farklı formatlarda algılayabilmesine rağmen çok basamaklı çarpma işlemlerinde ciddi hatalar yapıyor. Araştırma, aynı matematik probleminin rakam, kelime, görsel veya ses formatında sunulmasına göre model performansının dramatik şekilde değiştiğini gösteriyor. Bu bulgular, AI modellerinin gerçek aritmetik yeteneklerinin sanıldığından çok daha sınırlı olduğunu ve farklı modaliteler arasında tutarsız davranış sergilediklerini işaret ediyor.

Günümüzün en gelişmiş yapay zeka modelleri, görsel ve işitsel içerikleri anlayabilme konusunda etkileyici yetenekler sergilerken, temel matematik işlemlerinde beklenmedik zorluklar yaşadıkları ortaya çıktı.

Araştırmacılar, GPT-4V, Claude-3 ve Gemini gibi multimodal büyük dil modellerinin çok basamaklı çarpma işlemlerinde ciddi performans sorunları yaşadığını keşfetti. Daha da ilginç olanı, aynı matematik probleminin farklı formatlarda sunulmasının model performansını dramatik şekilde etkilemesi.

Çalışma kapsamında geliştirilen yeni bir değerlendirme sistemi, sayıların rakam, kelime, görsel ve ses formatlarında sunulduğu kontrollü testler içeriyor. Araştırmacılar, 'aritmetik yük' adını verdikleri yeni bir metrik geliştirerek, toplam basamak sayısı ile sıfır olmayan basamak sayısının çarpımını hesaplayarak işlem karmaşıklığını ölçtüler.

Sonuçlar oldukça çarpıcı: Aritmetik yük 100'ü aştığında, modellerin doğruluk oranı neredeyse sıfıra düşüyor. Bu durum, AI modellerinin gerçek matematiksel akıl yürütme yeteneklerinin sanıldığından çok daha sınırlı olduğunu gösteriyor.

Bu bulgular, yapay zeka teknolojisinin matematiksel problemleri çözmek için kullanıldığı alanlarda dikkatli değerlendirme yapılması gerektiğini vurguluyor ve AI güvenilirliği konusunda önemli sorular ortaya koyuyor.

Multimodal AI modelleri temel matematikte neden başarısız oluyor?

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor