Yapay Zeka Modellerinin Bilgi Derinliği Sorunu: Buzdağının Görünmeyen Yüzü

Araştırmacılar, büyük dil modellerinin görünüşte basit sorularda ciddi zorlanmalar yaşadığını keşfetti. KnowledgeBerg adlı yeni benchmark çalışması, bu modellerin sistematik bilgi kapsamı ve kompozisyonel muhakeme konularında büyük eksiklikler bulunduğunu ortaya koyuyor. 10 farklı alanda ve 17 dilde yapılan testlerde, açık kaynak modellerin evren numaralandırmasında sadece %5-37 başarı oranı gösterdiği belirlendi. Bu bulgular, AI modellerinin 'buzdağının görünen kısmı' gibi yüzeysel yanıtlar verebildiğini ancak derinlemesine sistematik düşünmede yetersiz kaldığını gösteriyor.

Yapay zeka alanında yeni bir araştırma, büyük dil modellerinin beklenmedik bir zayıflığını gün yüzüne çıkardı. Stanford ve diğer kurumlardan araştırmacılar, bu modellerin görünüşte basit sorularda bile ciddi zorluklar yaşadığını keşfetti.

Araştırma ekibi, 'buzdağının görünen kısmı' olarak adlandırdıkları bir fenomeni tanımladı. Bu durumda, basit görünen sorular aslında iki kritik yetenek gerektiriyor: belirli bir bilgi evreninin sistematik olarak kapsamlı şekilde ele alınması ve bu evren üzerinde kompozisyonel küme tabanlı muhakeme yapılması.

KnowledgeBerg benchmark'ı adı verilen test sistemi, 10 farklı alan ve 17 dilde toplam 4.800 çoktan seçmeli sorudan oluşuyor. Bu sorular, güvenilir kaynaklardan türetilen 1.183 numaralandırma çekirdeğine dayanıyor ve yeniden üretilebilir sonuçlar sağlamak için otoritatif kaynaklarda temellendiriliyor.

Test sonuçları oldukça çarpıcı: Açık kaynak büyük dil modelleri, evren numaralandırmasında sadece %5.26-36.88 F1 skoru, bilgi temelli muhakemede ise %16.00-44.19 doğruluk oranı elde edebildi.

Tanısal analizler, modellerin üç aşamada başarısız olduğunu gösteriyor: eksik bilgi nedeniyle tamlık sorunu, bilginin varlığının fark edilememesi ve yanlış kompozisyonel muhakeme. Bu bulgular, AI modellerinin daha güvenilir hale gelebilmesi için sistematik düşünme yeteneklerinin geliştirilmesi gerektiğini ortaya koyuyor.