Stanford ve diğer üniversitelerden araştırmacılar, büyük dil modellerinin hesaplama verimliliğini artırmak için yenilikçi bir yaklaşım geliştirdi. 'Koşullu derinlik yönlendirmesi' olarak adlandırılan bu yöntem, modelin her katmanında akıllı kararlar vererek enerji tasarrufu sağlıyor.
Sistemin temel mantığı oldukça zekice: metindeki her kelime için dinamik olarak karar veriliyor. Basit kelimeler hafif ve hızlı işlemlerden geçerken, karmaşık olanlar tam kapasiteli nöral ağdan faydalanıyor. Bu sayede genel performans korunurken hesaplama yükü önemli ölçüde azalıyor.
Araştırmacılar 157 milyon parametreli bir model üzerinde kapsamlı deneyler yürüttü. %50 hesaplama bütçesiyle çalışan sistemde iki farklı kapı mekanizması test edildi. İlki, mevcut gizli durumu doğrudan bir fayda skoruna dönüştüren MLP kapısı. İkincisi ise JEPA-güdümlü kapı olarak adlandırılan ve gelecekteki durumları önceden tahmin edebilen daha sofistike bir sistem.
En büyük zorluk, bu kapıların eğitilmesi. Bir kapının verdiği kararın etkisi ancak birçok katmandan sonra görülebildiği için, geri besleme sinyalleri zayıf ve gürültülü oluyor. Bu sorunu çözmek için araştırmacılar yardımcı kayıp fonksiyonları kullanıyor, ancak bunların birbiriyle etkileşimi henüz tam olarak anlaşılamıyor.