Yapay zeka araştırmacıları, mevcut AI modellerinin mantıklı düşünme yeteneklerindeki eksiklikleri ortaya koyan yeni bir değerlendirme sistemi geliştirdi. LOGICAL-COMMONSENSEQA adı verilen bu kıyaslama, sağduyu mantığını tamamen farklı bir perspektiften ele alıyor.

Geleneksel yaklaşımların aksine, bu yeni test yapay zekaya tek bir doğru cevap seçme yerine, birden fazla ifadenin birlikte ne kadar mantıklı olduğunu değerlendirme görevi veriyor. Sistem, atomik ifade çiftlerini VE, VEYA ve NE/NE DE gibi mantıklı operatörlerle birleştirerek değerlendirme yapıyor.

Araştırmacılar, farklı türdeki AI modellerini - talimat ayarlı, mantık yürütme odaklı ve ince ayarlı modelleri - sıfırdan öğrenme, az örnekle öğrenme ve düşünce zinciri yöntemleriyle test etti. Sonuçlar ilginç bir tablo ortaya koydu: modeller bağlaçlı mantık yürütmede (VE operatörü) makul performans sergilerken, ayrık mantıkta (VEYA operatörü) orta düzeyde başarı gösteriyor.

Ancak asıl çarpıcı bulgu, olumsuzlama temelli sorularda performansın dramatik şekilde düşmesi oldu. Bu durum, günümüzün en gelişmiş AI sistemlerinin bile temel mantık operasyonlarında ciddi sınırları olduğunu gösteriyor.

Bu kıyaslama sistemi, yapay zekanın kompozisyonel sağduyu mantığının ilerletilmesi için kontrollü bir çerçeve sunuyor ve gelecekteki AI geliştirmelerine yön gösterebilecek önemli bulgular içeriyor.