Büyük dil modelleri hızla gelişerek interaktif kodlama asistanları haline geliyor ve artık baştan sona web sitesi kodlama işlemlerini gerçekleştirebiliyor. Ancak mevcut değerlendirme sistemleri bu yeteneklerin yalnızca dar bir bölümünü test ediyordu - genellikle sadece metin tabanlı kod üretimi ve statik doğruluk kontrolü yapıyordu.
Araştırmacılar bu eksikliği gidermek için WebCompass adında yenilikçi bir değerlendirme platformu geliştirdi. Bu sistem, yapay zekanın web kodlama yeteneklerini çok boyutlu olarak test ediyor. WebCompass'ın en önemli özelliği, gerçek dünya koşullarını taklit etmesi - çünkü profesyonel web geliştirme, kod üretme, düzenleme ve onarma döngüsünden oluşuyor.
Platform üç farklı giriş türünü destekliyor: metin, görsel ve video. Ayrıca üç temel görev kategorisi bulunuyor: kod üretimi, düzenleme ve onarım. Bu kombinasyon toplam yedi farklı test kategorisi oluşturuyor ve profesyonel iş akışlarını yansıtıyor.
WebCompass'ın kapsamı oldukça geniş: 15 farklı üretim alanı, 16 düzenleme operasyonu türü ve 11 onarım hatası kategorisi içeriyor. Her görev kolay, orta ve zor olmak üzere üç zorluk seviyesinde sınıflandırılmış. Bu yaklaşım, AI modellerinin web geliştirme alanındaki gerçek performanslarını daha doğru ve kapsamlı bir şekilde ölçmeyi mümkün kılıyor.