Yapay zeka dünyasında küçük dil modelleri, hesaplama maliyetleri açısından büyük avantajlar sunuyor ancak akıl yürütme yetenekleri konusunda büyük modellerden geride kalıyor. Stanford Üniversitesi araştırmacıları bu soruna yenilikçi bir çözüm getirdi.
Mevcut yaklaşımlar, küçük modeller zorlandığında büyük modelleri devreye sokarak yeni token'lar ürettiriyor. Bu yöntem etkili olsa da önemli gecikme ve maliyet artışına neden oluyor. Standart distilasyon yöntemleri ise küçük modellerin kapasitesi nedeniyle sınırlı kalıyor.
Araştırma ekibi 'yerel yeterlilik' adını verdikleri önemli bir keşif yaptı: Küçük ve büyük modeller farklı sonuçlara vardığında, büyük modelin tercih ettiği doğru cevap aslında küçük modelin ilk 10 tahmini arasında bulunuyor. Problem, küçük modelin bu doğru seçeneği birinci sıraya koyamaması.
Bu bulgulardan hareketle geliştirilen 'Select to Think' yöntemi, büyük modelin rolünü tamamen değiştiriyor. Artık büyük model sıfırdan içerik üretmek yerine, küçük modelin sunduğu seçenekler arasından en uygununu seçiyor. Bu yaklaşım, denetim sinyalini basit bir sıralama problemine dönüştürüyor.
Yöntemin en büyük avantajı, büyük modellerin gücünden faydalanırken maliyet ve hızda önemli iyileştirmeler sağlaması. Bu gelişme, yapay zeka uygulamalarının daha geniş kitlelere ulaşmasını kolaylaştırabilir.