Yapay zekanın görsel ve metinsel verileri birlikte işleyebilen modelleri, görüntü açıklaması ve rapor yazma gibi birçok karmaşık görevde etkileyici sonuçlar elde etti. Ancak meteorolojik verileri yorumlama konusunda bu modellerin performansı henüz kapsamlı bir şekilde test edilmemişti.
Araştırmacılar, bu boşluğu doldurmak için SynopticBench adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, ABD Ulusal Hava Durumu Servisi'nin hazırladığı 1,367,041 adet bölgesel hava tahmini raporu ile bunlara karşılık gelen atmosferik görüntüleri bir araya getiriyor. Veri setinde 500 mb jeopotansiyel yükseklik, 2 metre sıcaklık ve 850 mb rüzgar hızı haritaları bulunuyor.
Atmosferin kaotik yapısı ve farklı zaman ve mekân ölçeklerinde sürekli değişim göstermesi, bu alanı yapay zeka için özellikle zorlu kılıyor. Meteorolojik olayların karmaşıklığı göz önüne alındığında, mevcut görsel-dil modellerinin hava tahmini verilerindeki etkinliğinin doğrulanabilir şekilde ölçülmesi kritik önem taşıyor.
Araştırmacılar ayrıca SPACE (Synoptic Phenomena Alignment and Coverage Evaluation) adlı yeni bir değerlendirme çerçevesi de sunuyor. Bu sistem, modellerin meteorolojik verileri ne kadar doğru yorumlayabildiğini objektif kriterlere göre değerlendirmeyi amaçlıyor.