Yapay zeka araştırmacıları, dil modellerinin sağduyu yetisini değerlendirmek için yenilikçi bir yaklaşım geliştirdi. ComPaSS (Commonsense Plausibility through Semantic Shifts) adı verilen bu yöntem, geleneksel değerlendirme tekniklerinin yetersiz kaldığı ince ayrımları yapmada önemli bir atılım sağlıyor.

Mevcut yaklaşımlar genellikle modellerin verdiği olasılık değerlerine veya sözel yargılarına dayanıyor ancak detaylı ayrımlar yapmakta zorlanıyor. ComPaSS ise farklı bir strateji benimsiyor: cümlelere sağduyu bilgisi eklendiğinde ortaya çıkan anlam değişimlerini ölçüyor. Makul eklentiler minimal anlam kaymasına sebep olurken, makul olmayan durumlar belirgin sapmalar yaratıyor.

Araştırmacıların yaptığı kapsamlı testler, hem büyük dil modelleri hem de görsel-dil modelleri üzerinde ComPaSS'ın üstün performans sergilediğini ortaya koyuyor. Özellikle görsel-dil modellerinin bu görevde daha başarılı sonuçlar verdiği gözlemleniyor.

Bu gelişme, yapay zeka sistemlerinin insan benzeri muhakeme yapabilme kapasitelerinin daha doğru değerlendirilmesi açısından kritik önem taşıyor. ComPaSS'ın ayrımcı yaklaşımı, üretken yöntemlere kıyasla ince sağduyu değerlendirmelerinde belirgin avantajlar sunuyor.