WebCompass: Web kodlama yapay zekalarını çok boyutlu test eden yeni benchmark

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Yapay zeka modelleri artık web sitesi kodlama konusunda oldukça yetenekli hale geldi, ancak mevcut test sistemleri bu yetenekleri tam olarak ölçemiyordu. Araştırmacılar, WebCompass adında yeni bir değerlendirme sistemi geliştirdi. Bu sistem, AI modellerinin web kodlama yeteneklerini metin, görsel ve video girişleriyle test ediyor. Gerçek dünyada web geliştiricilerinin yaptığı gibi, kodları üretme, düzenleme ve onarma becerilerini aynı anda değerlendiriyor. WebCompass, 15 farklı alan, 16 düzenleme türü ve 11 onarım kategorisini kapsıyor. Her görev kolay, orta ve zor seviyelerde sınıflandırılmış. Bu kapsamlı test sistemi, yapay zeka modellerinin web geliştirme alanındaki gerçek performanslarını daha doğru bir şekilde ölçmeyi hedefliyor.

Büyük dil modelleri hızla gelişerek interaktif kodlama asistanları haline geliyor ve artık baştan sona web sitesi kodlama işlemlerini gerçekleştirebiliyor. Ancak mevcut değerlendirme sistemleri bu yeteneklerin yalnızca dar bir bölümünü test ediyordu - genellikle sadece metin tabanlı kod üretimi ve statik doğruluk kontrolü yapıyordu.

Araştırmacılar bu eksikliği gidermek için WebCompass adında yenilikçi bir değerlendirme platformu geliştirdi. Bu sistem, yapay zekanın web kodlama yeteneklerini çok boyutlu olarak test ediyor. WebCompass'ın en önemli özelliği, gerçek dünya koşullarını taklit etmesi - çünkü profesyonel web geliştirme, kod üretme, düzenleme ve onarma döngüsünden oluşuyor.

Platform üç farklı giriş türünü destekliyor: metin, görsel ve video. Ayrıca üç temel görev kategorisi bulunuyor: kod üretimi, düzenleme ve onarım. Bu kombinasyon toplam yedi farklı test kategorisi oluşturuyor ve profesyonel iş akışlarını yansıtıyor.

WebCompass'ın kapsamı oldukça geniş: 15 farklı üretim alanı, 16 düzenleme operasyonu türü ve 11 onarım hatası kategorisi içeriyor. Her görev kolay, orta ve zor olmak üzere üç zorluk seviyesinde sınıflandırılmış. Bu yaklaşım, AI modellerinin web geliştirme alanındaki gerçek performanslarını daha doğru ve kapsamlı bir şekilde ölçmeyi mümkün kılıyor.

Etiketler

#yapay zeka #web geliştirme #kodlama #benchmark #yazılım

Özgün Kaynak

WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

https://arxiv.org/abs/2604.18224

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.