Teknoloji & Yapay Zeka

Yapay zeka artık tutarlı hikaye görselleştirmesi yapabiliyor

Araştırmacılar, metinlerden tutarlı görsel hikayeler oluşturabilen yenilikçi bir yapay zeka sistemi geliştirdi. ReCap adı verilen bu sistem, hikayedeki karakterlerin kimliklerini koruyarak art arda gelen görsellerde tutarlılık sağlıyor. Geleneksel yöntemler büyük bellek bankaları ve karmaşık mimariler gerektirirken, ReCap sadece 149 bin ek parametre kullanarak aynı başarıyı elde ediyor. Sistem, özellikle zamirleri görsel bağlantı noktası olarak kullanarak, karakterlere zamirle atıfta bulunulduğunda önceki karelerdeki görsel kimliği aktarıyor. Bu seçici yaklaşım, gereksiz hesaplama yükünden kaçınırken karakter stabilitesi ve görsel kaliteyi artırıyor. Gelişme, dijital içerik üretimi ve eğlence sektöründe devrim yaratabilecek potansiyele sahip.

Stanford Üniversitesi araştırmacıları, metinsel anlatımlardan tutarlı görsel hikayeler üretebilen ReCap adlı yeni bir yapay zeka sistemi geliştirdi. Bu sistem, hikaye görselleştirmesinde karşılaşılan en büyük zorluklardan birini çözüyor: karakterlerin kimliklerini koruyarak art arda gelen karelerde tutarlılık sağlamak.

Hikaye görselleştirmesi, bir metni okuyarak o hikayeyi anlatan görsel sekanslar oluşturmayı amaçlıyor. Ancak bu süreçte karakterlerin kimliklerini korumak, mekansal düzenlemeleri tutarlı tutmak ve stil bütünlüğü sağlamak büyük teknik zorluklar yaratıyor. Mevcut yaklaşımlar bu sorunları çözmek için büyük bellek bankaları, karmaşık mimari yapılar veya yardımcı dil modelleri kullanıyor, bu da sistem boyutunu ve işlem maliyetini önemli ölçüde artırıyor.

ReCap'in CORE (Koşullu Kare Referanslama) modülü, zamirleri görsel bağlantı noktaları olarak kullanan akıllı bir yaklaşım benimsiyor. Sistem, karakterlere zamirle atıfta bulunulduğunda aktifleşerek önceki karelerdeki görsel kimliği sonraki karelere taşıyor. Bu seçici tasarım sayesinde gereksiz kareler arası koşullandırmadan kaçınılıyor.

Sistemin en dikkat çekici özelliği, temel difüzyon modelini değiştirmeden sadece 149 bin ek parametre ile bu başarıyı elde etmesi. Bu, geleneksel yöntemlerin gerektirdiği kaynak miktarının çok küçük bir kısmı anlamına geliyor.

Özgün Kaynak
arXiv (CS + AI)
ReCap: Lightweight Referential Grounding for Coherent Story Visualization
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.