Günümüzde yapay zeka modelleri doğal görüntüler üretmede ve çok modlu akıl yürütmede etkileyici başarılar gösteriyor. Ancak bu sistemlerin günlük bilgisayar kullanım görevlerindeki performansı henüz yeterince araştırılmamış durumda.
Araştırmacılar bu boşluğu doldurmak için PlanViz adlı kapsamlı bir değerlendirme sistemi geliştirdi. Bu yeni test, yapay zeka modellerinin bilgisayar kullanım görevlerinde görsel içerik üretme ve düzenleme yeteneklerini ölçmeyi amaçlıyor.
PlanViz üç temel kategoride yapay zeka performansını değerlendiriyor: rota planlama, iş süreçleri diyagramları oluşturma ve web-kullanıcı arayüzü tasarlama. Bu görevler günlük yaşamda sıkça karşılaştığımız ve planlama gerektiren aktiviteler olarak seçilmiş.
Test sistemi, yapay zekanın mekansal akıl yürütme ve prosedürel anlama becerilerini ölçmeye odaklanıyor. Bu yetenekler, bilgisayar kullanım görevlerinde başarılı olmak için kritik öneme sahip. Araştırmacılar, veri kalitesini garantilemek için insan uzmanlar tarafından hazırlanmış sorular ve referans görseller kullanarak objektif bir değerlendirme sistemi oluşturmuş.
Bu çalışma, yapay zeka teknolojilerinin gerçek dünya uygulamalarındaki etkinliğini anlamak için önemli bir adım teşkil ediyor ve gelecekteki geliştirmeler için yol haritası sunuyor.