Stanford Üniversitesi araştırmacıları, metinsel anlatımlardan tutarlı görsel hikayeler üretebilen ReCap adlı yeni bir yapay zeka sistemi geliştirdi. Bu sistem, hikaye görselleştirmesinde karşılaşılan en büyük zorluklardan birini çözüyor: karakterlerin kimliklerini koruyarak art arda gelen karelerde tutarlılık sağlamak.
Hikaye görselleştirmesi, bir metni okuyarak o hikayeyi anlatan görsel sekanslar oluşturmayı amaçlıyor. Ancak bu süreçte karakterlerin kimliklerini korumak, mekansal düzenlemeleri tutarlı tutmak ve stil bütünlüğü sağlamak büyük teknik zorluklar yaratıyor. Mevcut yaklaşımlar bu sorunları çözmek için büyük bellek bankaları, karmaşık mimari yapılar veya yardımcı dil modelleri kullanıyor, bu da sistem boyutunu ve işlem maliyetini önemli ölçüde artırıyor.
ReCap'in CORE (Koşullu Kare Referanslama) modülü, zamirleri görsel bağlantı noktaları olarak kullanan akıllı bir yaklaşım benimsiyor. Sistem, karakterlere zamirle atıfta bulunulduğunda aktifleşerek önceki karelerdeki görsel kimliği sonraki karelere taşıyor. Bu seçici tasarım sayesinde gereksiz kareler arası koşullandırmadan kaçınılıyor.
Sistemin en dikkat çekici özelliği, temel difüzyon modelini değiştirmeden sadece 149 bin ek parametre ile bu başarıyı elde etmesi. Bu, geleneksel yöntemlerin gerektirdiği kaynak miktarının çok küçük bir kısmı anlamına geliyor.