Küçük yapay zeka modelleri büyüklerden dikkat odağı öğrenerek akıl yürütme becerisi kazanıyor

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük dil modellerinin sahip olduğu akıl yürütme yeteneklerini daha küçük modellere aktarmak için yenilikçi bir yöntem geliştirdi. Geleneksel yaklaşımların aksine, bu yeni teknik sadece düşünce zinciri süreçlerini değil, büyük modellerin akıl yürütme sırasında kritik bilgilere nasıl odaklandığını da öğretiyor. Çalışma, dil modellerinin akıl yürütme sürecinde anahtar bilgilere doğru kademeli olarak dikkatlerini kaydırdığını ortaya koyuyor. Bu keşif temelinde geliştirilen Mixture-of-Layers modülü, öğrenci modelin doğru bilgilere adım adım odaklanmasını sağlıyor. Yöntem, hesaplama maliyetlerini düşürürken akıl yürütme performansını koruması açısından yapay zeka alanında önemli bir ilerleme sunuyor.

Yapay zeka alanında büyük dil modellerinin yüksek hesaplama gereksinimleri, araştırmacıları bu modellerin yeteneklerini daha küçük ve verimli sistemlere aktarmanın yollarını aramaya yöneltiyor. Bu amaçla geliştirilen yeni bir çalışma, akıl yürütme becerilerinin transferi konusunda çığır açıcı bir yaklaşım sunuyor.

Mevcut düşünce zinciri (Chain-of-Thought) aktarım yöntemleri, büyük modellerin ürettiği mantıksal süreçleri küçük modellere öğretmeye odaklanıyor. Ancak bu araştırma, büyük modellerin akıl yürütme sırasında kritik bilgilere nasıl dikkat ettiğinin de en az o kadar önemli olduğunu gösteriyor.

Bilim insanları, dil modellerinin karmaşık problemleri çözerken anahtar bilgilere doğru kademeli bir dikkat kayması yaşadığını keşfetti. Bu gözlem, sonuçlara ulaşmak için gerekli ipuçlarının nasıl belirlendiğine dair önemli bulgular sunuyor.

Yeni geliştirilen çerçeve, öğretmen modelin adımsal dikkat odağını öğrenci modele aktarıyor. Böylece küçük model, akıl yürütme sürecinde hangi bilgilere ne zaman odaklanması gerektiğini yapılandırılmış bir şekilde öğreniyor.

Mixture of Layers modülü adı verilen yenilikçi bileşen, bu dikkat transferini mümkün kılıyor. Sistem, büyük modellerin sahip olduğu akıl yürütme performansını koruyarak hesaplama maliyetlerini önemli ölçüde azaltıyor.

Etiketler

#yapay zeka #makine öğrenmesi #dil modelleri #akıl yürütme #model sıkıştırma

Özgün Kaynak

Improving Reasoning Capabilities in Small Models through Mixture-of-Layers Distillation with Stepwise Attention on Key Information

https://arxiv.org/abs/2604.15701

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.