Yapay zeka dünyasında transformer mimarilerinin hakimiyeti sorgulanmaya başladı. Araştırmacılar, lineer tekrarlayan sinir ağları ve hibrit modellerin potansiyelini keşfederken, bu yeni yaklaşımların büyük ölçekte uygulanmasının risk ve çabasına değip değmeyeceği tartışılıyor.
Bu soruya yanıt aramak için araştırmacılar, hibrit modellerin saf transformer'lara göre üstünlüklerini çeşitli açılardan kanıtladı. Teorik düzeyde, hibrit modellerin yalnızca transformer'ların ve lineer RNN'lerin ifade gücünü miras almadığını, aynı zamanda kod yürütme gibi her ikisinin de ötesindeki görevleri gerçekleştirebileceğini gösterdiler.
Teoriyi pratiğe dökebilmek için Olmo Hybrid adlı 7 milyar parametreli bir model eğittiler. Bu model büyük ölçüde Olmo 3 7B ile karşılaştırılabilir özelliklere sahip, ancak kayan pencere katmanları yerine Gated DeltaNet katmanları kullanıyor.
Test sonuçları hibrit yaklaşımın başarısını doğruladı. Olmo Hybrid, standart eğitim öncesi ve orta düzey değerlendirmelerde Olmo 3'ü geride bırakarak, kontrollü koşullarda hibrit modellerin faydalarını net bir şekilde ortaya koydu. Bu bulgular, gelecekteki yapay zeka modellerinin tasarımında hibrit yaklaşımların dikkate alınması gerektiğine işaret ediyor.