Yazılım Arama Motorları Artık Görselleri de Anlayabiliyor

Yazılım geliştirme dünyasında kod arama işlemi genellikle sadece metin tabanlı olarak gerçekleştirilir. Ancak modern programlama projeleri web arayüzleri, veri görselleştirmeleri ve diyagramlar gibi görsel öğeler de içerir. Araştırmacılar, bu sorunu çözmek için CodeMMR adlı yeni bir sistem geliştirdi. Bu teknoloji, doğal dil, kod ve görselleri ortak bir anlam alanında birleştirerek çok modlu kod arama yapabiliyor. MMCoIR benchmark'ı ile test edilen sistem, beş farklı görsel alan, sekiz programlama dili ve on bir kütüphane üzerinde değerlendirildi. Bu gelişme, yazılım mühendisliğinde kod keşfi ve yeniden kullanımını kolaylaştırırken, yapay zeka destekli kodlama araçlarının güvenilirliğini de artırıyor.

Yazılım geliştirme süreçlerinde kod arama ve keşfi, modern programcıların günlük iş akışının ayrılmaz bir parçası haline geldi. Geleneksel kod arama sistemleri büyük ölçüde metin tabanlı çalışıyor ve kodun görsel ya da yapısal özelliklerini göz ardı ediyor.

Araştırmacılar bu eksikliği gidermek için CodeMMR adlı yenilikçi bir sistem geliştirdi. Bu teknoloji, doğal dil, programlama kodu ve görselleri tek bir anlam uzayında birleştiren talimat tabanlı çok modlu hizalama yaklaşımı kullanıyor. Sistem, web arayüzleri, veri görselleştirmeleri, SVG dosyaları, şematik diyagramlar ve UML diagramları gibi programlama projelerinin görsel bileşenlerini anlayabiliyor.

MMCoIR adlı kapsamlı değerlendirme platformu ile test edilen CodeMMR, beş farklı görsel domain, sekiz programlama dili ve on bir farklı kütüphane üzerinde değerlendirildi. Test sonuçları, sistemin farklı modaliteler arasında güçlü genelleme yeteneğine sahip olduğunu gösterdi.

Bu gelişme, yazılım mühendisliğinde kod keşfi ve yeniden kullanımını önemli ölçüde iyileştirme potansiyeli taşıyor. Ayrıca, büyük dil modellerinin kodlama yeteneklerini destekleyen retrieval-augmented generation (RAG) sistemlerinin performansını da artırabileceği öngörülüyor.