Stanford araştırmacıları, yapay zeka alanında devrim niteliğinde bir yenilik olan State Stream Transformer (SST) V2'yi tanıttı. Bu yeni mimari, mevcut transformer modellerinin temel bir eksikliğini gideriyor: pozisyonlar arası zengin gizli bilginin kaybolması sorunu.
Geleneksel transformer modeller, her yeni pozisyonda mantık yürütme bağlamını sıfırdan yeniden oluşturuyor ve bu süreçte değerli bilgileri kaybediyor. SST V2 ise her decoder katmanında FFN tabanlı doğrusal olmayan bir tekrarlama mekanizması kullanarak, gizli durumları tüm dizi boyunca sürekli olarak akıtıyor.
Modelin en çarpıcı özelliği, çıkarım sırasında her pozisyonda sürekli düşünebilme kapasitesi. Bu, yapay zekanın bir kelime seçmeden önce soyut mantık yürütme alanlarını keşfetmek için ek hesaplama gücü ayırabilmesi anlamına geliyor - tıpkı insanların karar vermeden önce düşünmesi gibi.
Teknik açıdan, araştırmacılar tekrarlamanın sıralı bağımlılığını çözmek için iki aşamalı paralel eğitim prosedürü geliştirdi. Bu sayede hesaplama verimliliği korunurken, model etkili şekilde eğitilebiliyor.
Gizli durum analizi, state stream'in sürekli gizli uzayda farklı anlamsal havzalar arasında geçiş yaparak mantık yürüttüğünü ortaya koyuyor. Bu keşif, AI'nın düşünce süreçlerini anlamamızda önemli bir adım.