Büyük dil modelleri (LLM'ler) uzun düşünce zincirleri kullanarak tek cevaplı görevlerde etkileyici performans sergilerken, insan etiketleme çeşitliliğini modellemede beklenenden farklı sonuçlar veriyor. Yeni araştırma, bu modellerin belirsizliği çözmek yerine yakalamayı gerektiren görevlerdeki yeteneklerini sorguluyor.

Araştırmacılar, düşünce zinciri etkisini sistematik olarak ayırmak için Cross-CoT deneyleri gerçekleştirdi. Bu yöntemle, akıl yürütme metninin etkisini model önyargılarından ayırmayı başardılar. Sonuçlar, 'ayrışmış mekanizma' adını verdikleri ilginç bir fenomeni ortaya koydu.

Bulgulara göre, düşünce zinciri dağılımsal uyumu geliştirirken, nihai doğruluk CoT içeriği tarafından belirleniyor (varyansın %99'u). Bununla birlikte, dağılımsal sıralama büyük ölçüde model önyargıları tarafından yönetiliyor (%80'den fazla). Adım adım analiz, CoT'nin doğruluk üzerindeki etkisinin akıl yürütme sürecinde monoton şekilde artmasına rağmen, dağılımsal yapının LLM'nin içsel önyargıları tarafından belirlendiğini gösteriyor.

Bu keşif, uzun düşünce zincirlerinin LLM'ler için belirleyici karar verici rolü oynadığını, ancak insan belirsizliğini yakalamada sınırlı kaldığını ortaya koyuyor. Bulgular, AI sistemlerinin insan benzeri belirsizlik değerlendirmesi konusundaki mevcut kapasitelerini yeniden değerlendirmemiz gerektiğini işaret ediyor.