Transformer mimarisinin yapay zeka alanındaki başarısına rağmen, bu modellerin temel bir zayıflığı bulunduğu ortaya çıktı. Araştırmacılar, bu modellerin dinamik durum takibinde yaşadığı sorunları analiz etti.
Durum takibi, değişen bir ortamı yansıtan gizli değişkenlerin sürekli güncellenmesi anlamına geliyor. Bu işlem, doğası gereği sıralı bağımlılıklar içeriyor ve ileri beslemeli ağların bu tür bağımlılıkları korumakta zorlandığı biliniyor.
Araştırma, Transformer'ların her yeni girdi adımında gelişen durum temsillerini katman yığınının daha derinlerine ittiğini gösteriyor. Bu durum, bilginin sığ katmanlarda erişilemez hale gelmesine ve sonuçta modelin derinliğinin tükenmesine neden oluyor.
Bu derinlik sınırı, dinamik derinlik modelleri ve durum temsillerini dışsallaştıran açık ya da örtük düşünme yöntemleriyle aşılabilse de, bu çözümler hesaplama ve bellek açısından verimsiz kalıyor.
Uzmanlar, zamansal olarak genişletilmiş bilişsel süreçler için açık düşünce izlerinden ziyade, tekrarlamalı mimariler aracılığıyla örtük aktivasyon dinamiklerine odaklanılması gerektiğini öne sürüyor. Bu yaklaşım, yapay zekanın uzun süreli düşünme kapasitesini artırmak için kritik önemde görülüyor.