Yapay zeka ajanları kullanıcı arayüzlerinde etkili çalışabilmek için, arayüzlerin kullanıcıya nasıl geri bildirim verdiğini ve durum değişikliklerini nasıl ilettiğini anlamalı. Modern dijital arayüzlerde animasyonlar sadece görsel güzellik için değil, kullanıcıyla iletişim kurmak için kritik işlevler üstleniyor.
Ancak şimdiye kadar görme-dil modellerinin (VLM) arayüz anlayışını inceleyen çalışmalar büyük ölçüde statik ekran görüntüleri üzerinde odaklandı. Bu durum, bu gelişmiş modellerin dinamik arayüz animasyonlarını ne kadar iyi anladığı konusunda belirsizlik yarattı.
Bu sorunu çözmek için araştırmacılar AniMINT adında yenilikçi bir veri seti geliştirdi. Bu veri seti, detaylı açıklamalarla zenginleştirilmiş 300 kullanıcı arayüzü animasyon videosu içeriyor. Ekip, en gelişmiş görme-dil modellerini animasyon efektlerini algılama, animasyon amaçlarını belirleme ve animasyon anlamlarını yorumlama konularında sistematik olarak test etti.
Elde edilen bulgular ilginç bir tablo çiziyor: VLM'ler temel hareket türlerini güvenilir şekilde tespit edebiliyor, ancak üst düzey anlayış gerektiren görevlerde zorlanıyor. Bu sonuçlar, yapay zeka ajanlarının kullanıcı arayüzleriyle daha sofistike etkileşim kurabilmesi için daha fazla araştırmaya ihtiyaç olduğunu gösteriyor.