Yapay Zeka Modellerinde Akıllı Yönlendirme: Hesaplama Maliyetini Yarıya İndiren Yöntem

Araştırmacılar, büyük dil modellerinin hesaplama maliyetini önemli ölçüde azaltabilecek yeni bir yöntem geliştirdi. 'Koşullu derinlik yönlendirmesi' adı verilen bu teknik, metinlerdeki bazı kelimeleri basit işlemlerden geçirirken, karmaşık olanları tam kapasiteli sistemden geçiriyor. 157 milyon parametreli model üzerinde yapılan testlerde, hesaplama yükünü %50 azaltmak mümkün oldu. Sistemin kalbi, hangi kelimelerin hangi işlemlerden geçeceğine karar veren 'kapı' mekanizması. Bu kapıların eğitimi oldukça zorlu çünkü bir kararın etkisi ancak birçok katmandan sonra görülüyor. Araştırmacılar iki farklı kapı tasarımını karşılaştırdı: basit MLP kapısı ve daha gelişmiş JEPA-güdümlü kapı. Bu çalışma, yapay zeka modellerinin daha verimli çalışması için önemli bir adım teşkil ediyor.

Stanford ve diğer üniversitelerden araştırmacılar, büyük dil modellerinin hesaplama verimliliğini artırmak için yenilikçi bir yaklaşım geliştirdi. 'Koşullu derinlik yönlendirmesi' olarak adlandırılan bu yöntem, modelin her katmanında akıllı kararlar vererek enerji tasarrufu sağlıyor.

Sistemin temel mantığı oldukça zekice: metindeki her kelime için dinamik olarak karar veriliyor. Basit kelimeler hafif ve hızlı işlemlerden geçerken, karmaşık olanlar tam kapasiteli nöral ağdan faydalanıyor. Bu sayede genel performans korunurken hesaplama yükü önemli ölçüde azalıyor.

Araştırmacılar 157 milyon parametreli bir model üzerinde kapsamlı deneyler yürüttü. %50 hesaplama bütçesiyle çalışan sistemde iki farklı kapı mekanizması test edildi. İlki, mevcut gizli durumu doğrudan bir fayda skoruna dönüştüren MLP kapısı. İkincisi ise JEPA-güdümlü kapı olarak adlandırılan ve gelecekteki durumları önceden tahmin edebilen daha sofistike bir sistem.

En büyük zorluk, bu kapıların eğitilmesi. Bir kapının verdiği kararın etkisi ancak birçok katmandan sonra görülebildiği için, geri besleme sinyalleri zayıf ve gürültülü oluyor. Bu sorunu çözmek için araştırmacılar yardımcı kayıp fonksiyonları kullanıyor, ancak bunların birbiriyle etkileşimi henüz tam olarak anlaşılamıyor.