Yapay zeka alanında son dönemde öne çıkan Mamba modelleri, geleneksel transformer mimarisine alternatif olarak geliştirildi. Bu modellerin en dikkat çekici özelliği, her yeni kelimeyi gördükçe bu bilgiyi sıkıştırılmış bir hafıza durumunda saklaması. Teorik olarak bu, modelin hiçbir bilgiyi kaybetmeden tüm önceki bağlamı hatırlaması anlamına geliyor.
Araştırmacılar, bu özellikten yararlanarak otomatik cümle özetleme yapılabileceğini varsayıyordu. Fikir şuydu: belirli noktalardaki çıktıları alarak, ek eğitim veya özel başlık katmanları olmadan doğrudan anlamlı cümle özetleri elde etmek. Bu mümkün olsaydı, doğal dil işleme alanında büyük bir ilerleme kaydedilmiş olacaktı.
Ancak yapılan deneysel çalışma bu umutları boşa çıkardı. Mamba-130M modeli üzerinde beş farklı görevde yapılan testlerde (SST-2 duygu analizi, CoLA dilbilgisel doğruluk, MRPC cümle eşleştirme, STS-B benzerlik ölçümü ve IMDb film değerlendirmeleri), dört farklı temsil çıkarma stratejisi karşılaştırıldı.
Sonuçlar beklentilerin aksine çıktı. Özel sınır noktalarından alınan temsiller, basit ortalama alma yönteminden tutarlı bir üstünlük sağlayamadı. Daha da endişe verici olan, araştırmacıların modelin iç yapısında tespit ettiği iki temel sorundu.
İlk sorun, temsillerin birbirine aşırı derecede benzemesiydi. Matematiksel olarak ifade edersek, temsillerin cosine benzerliği 0.9999 gibi neredeyse mükemmel bir değerde çıktı. İkinci sorun ise, son durum vektörlerinde anlam bilgisinin tamamen kaybolmasıydı. Bu durum, modelin teorik potansiyelini pratikte gerçekleştirmesini engelliyordu.