Büyük dil modelleri günümüzde metinleri tek boyutlu token dizileri halinde işliyor. Bu yaklaşım yazılı metinler için doğal olsa da, hesaplama işlemi doğrudan iki boyutlu yapıya dayanan görevlerde ek bir temsil yükü oluşturabiliyor.
Araştırmacılar bu durumu 'serileştirme sürtünmesi' olarak adlandırıyor ve satır-sütun hizalaması ile yerel komşulukların artık girdi verisinde doğrudan ifade edilemediği durumları kapsıyor. Bu sorunu incelemek için matris transpoz, Conway'in Yaşam Oyunu ve LU ayrıştırması gibi açık 2D yapı gerektiren sentetik görevlerden oluşan küçük bir test ortamı kullanıldı.
Çalışmada iki farklı yaklaşım karşılaştırıldı: serileştirilmiş girdiler üzerinden sadece metin kullanan dil yolu ile aynı dil omurgası üzerine inşa edilen ancak aynı temel içeriği göreve uygun 2D düzende işleyen görsel destekli yol.
Sonuçlar oldukça net: incelenen tüm görevlerde ve ayarlarda görsel yol tutarlı bir şekilde daha başarılı performans gösterdi. Bu bulgular, yapay zeka modellerinin veri işleme biçimlerinin görev türüne göre optimize edilmesi gerektiğini ve görsel bilginin belirli problem türleri için kritik önemde olduğunu ortaya koyuyor.