Yapay zeka destekli görüntü düzenleme teknolojilerinde yaşanan sorunların temel nedenini araştıran bilim insanları, dikkat çekici bir keşif yaptı. Çoğu başarısızlığın aslında yapay zeka modellerinin yetersiz kapasitesinden değil, düzenleme görevlerinin yanlış formüle edilmesinden kaynaklandığını ortaya çıkardılar.

Araştırmacıların geliştirdiği yeni çerçeve, görüntü düzenleme başarısızlıklarını bir görev formülasyonu problemi olarak ele alıyor. Sistem, orijinal görüntü-talimat çiftlerini, çok dilli büyük dil modeli (MLLM) ajanları tarafından dinamik olarak belirlenen ve yürütülen operasyon dizilerine dönüştürüyor.

Bu yenilikçi yaklaşım, analiz, yönlendirme, yeniden formülasyon ve geri bildirim odaklı iyileştirme süreçlerini kullanarak çalışıyor. Özellikle küçük hedefler, örtük uzamsal ilişkiler veya yetersiz belirtilmiş talimatlar içeren zorlu durularda bile başarılı sonuçlar elde ediyor.

ImgEdit, PICA ve RePlan dahil olmak üzere çoklu kıyaslama testlerinde yapılan deneyler, bu yöntemin mevcut düzenleme sistemlerinin performansını önemli ölçüde artırdığını gösteriyor. En önemlisi, bu iyileştirme temel alınan modelde herhangi bir değişiklik yapılmadan gerçekleştiriliyor.

Bu gelişme, görüntü düzenleme teknolojilerinin daha güvenilir ve kullanıcı dostu hale gelmesi açısından önemli bir adım olarak değerlendiriliyor.