Yapay zeka alanında yeni bir araştırma, büyük dil modellerinin beklenmedik bir zayıflığını gün yüzüne çıkardı. Stanford ve diğer kurumlardan araştırmacılar, bu modellerin görünüşte basit sorularda bile ciddi zorluklar yaşadığını keşfetti.
Araştırma ekibi, 'buzdağının görünen kısmı' olarak adlandırdıkları bir fenomeni tanımladı. Bu durumda, basit görünen sorular aslında iki kritik yetenek gerektiriyor: belirli bir bilgi evreninin sistematik olarak kapsamlı şekilde ele alınması ve bu evren üzerinde kompozisyonel küme tabanlı muhakeme yapılması.
KnowledgeBerg benchmark'ı adı verilen test sistemi, 10 farklı alan ve 17 dilde toplam 4.800 çoktan seçmeli sorudan oluşuyor. Bu sorular, güvenilir kaynaklardan türetilen 1.183 numaralandırma çekirdeğine dayanıyor ve yeniden üretilebilir sonuçlar sağlamak için otoritatif kaynaklarda temellendiriliyor.
Test sonuçları oldukça çarpıcı: Açık kaynak büyük dil modelleri, evren numaralandırmasında sadece %5.26-36.88 F1 skoru, bilgi temelli muhakemede ise %16.00-44.19 doğruluk oranı elde edebildi.
Tanısal analizler, modellerin üç aşamada başarısız olduğunu gösteriyor: eksik bilgi nedeniyle tamlık sorunu, bilginin varlığının fark edilememesi ve yanlış kompozisyonel muhakeme. Bu bulgular, AI modellerinin daha güvenilir hale gelebilmesi için sistematik düşünme yeteneklerinin geliştirilmesi gerektiğini ortaya koyuyor.