Yapay zeka alanında büyük dil modellerinin yüksek hesaplama gereksinimleri, araştırmacıları bu modellerin yeteneklerini daha küçük ve verimli sistemlere aktarmanın yollarını aramaya yöneltiyor. Bu amaçla geliştirilen yeni bir çalışma, akıl yürütme becerilerinin transferi konusunda çığır açıcı bir yaklaşım sunuyor.

Mevcut düşünce zinciri (Chain-of-Thought) aktarım yöntemleri, büyük modellerin ürettiği mantıksal süreçleri küçük modellere öğretmeye odaklanıyor. Ancak bu araştırma, büyük modellerin akıl yürütme sırasında kritik bilgilere nasıl dikkat ettiğinin de en az o kadar önemli olduğunu gösteriyor.

Bilim insanları, dil modellerinin karmaşık problemleri çözerken anahtar bilgilere doğru kademeli bir dikkat kayması yaşadığını keşfetti. Bu gözlem, sonuçlara ulaşmak için gerekli ipuçlarının nasıl belirlendiğine dair önemli bulgular sunuyor.

Yeni geliştirilen çerçeve, öğretmen modelin adımsal dikkat odağını öğrenci modele aktarıyor. Böylece küçük model, akıl yürütme sürecinde hangi bilgilere ne zaman odaklanması gerektiğini yapılandırılmış bir şekilde öğreniyor.

Mixture of Layers modülü adı verilen yenilikçi bileşen, bu dikkat transferini mümkün kılıyor. Sistem, büyük modellerin sahip olduğu akıl yürütme performansını koruyarak hesaplama maliyetlerini önemli ölçüde azaltıyor.