Yapay Zeka Uzman Karışımları İçin Yeni Yönlendirme Mekanizması Keşfedildi

Araştırmacılar, Mixture-of-Experts (MoE) modellerinde gizli katmanların nasıl çalıştığını açıklayan yenilikçi bir ayrıştırma yöntemi geliştirdi. Bu yöntem, her katmanın gizli durumunu iki bileşene ayırıyor: yönlendirmeyi kontrol eden bir sinyal ve yönlendiricinin göremediği bir içerik kanalı. Altı farklı MoE mimarisinde yapılan testler, modellerin yüzeysel özellikleri içerik kanalında sakladığını, kontrol sinyalinin ise katmanlar arası soyut işlevleri kodladığını gösterdi. Bu keşif, yapay zeka modellerinin iç işleyişini anlamada önemli bir adım.

Yapay zeka alanında önemli bir gelişme yaşanıyor. Araştırmacılar, Mixture-of-Experts (MoE) modellerinin iç yapısını anlamak için parametre gerektirmeyen yeni bir ayrıştırma yöntemi geliştirdi.

Bu yenilikçi yaklaşım, büyük dil modellerinin gizli katmanlarını iki temel bileşene ayırıyor. Birinci bileşen, uzman seçimini nedensel olarak yönlendiren bir kontrol sinyali. İkinci bileşen ise yönlendiricinin erişemediği, ona dik konumlanmış bir içerik kanalı.

Altı farklı MoE mimarisinde gerçekleştirilen kapsamlı testler, dikkat çekici sonuçlar ortaya koydu. Modeller, dil, simge kimliği ve konum gibi yüzeysel özellikleri içerik kanalında saklıyor. Öte yandan kontrol sinyali, katmanlar arası dönen soyut bir işlev kodluyor.

Her yönlendirme kararının düşük bant genişliğinde olması, katmanlar arası kompozisyonel uzmanlaşmayı zorunlu kılıyor. Bireysel uzmanlar çok anlamlı kalsa da, uzman yolları tek anlamlı hale geliyor. Bu durum, simgeleri diller ve yüzey formları boyunca anlamsal işlevlerine göre kümelendiriyor.

Araştırmada ilginç bir örnek veriliyor: İki nokta üst üste (:) işareti, tür açıklaması olarak mı yoksa başka bir amaçla mı kullanıldığına bağlı olarak farklı yollar izliyor. Bu keşif, yapay zeka modellerinin iç dinamiklerini anlamamızda önemli bir kilometre taşı.