Yapay zeka modelleri artık görsel arama motorlarında da ustalaşıyor

Araştırmacılar, dil ve görsel yetenekleri birleştiren yapay zeka modellerinin, görsel arama sistemlerinde beklenmedik başarı gösterdiğini keşfetti. Bu modeller, herhangi bir özel eğitim almadan benzer görselleri bulma konusunda uzman sistemleri geride bırakıyor. Çalışma, çok modlu dil modellerinin sadece metin-görsel işlemlerde değil, salt görsel görevlerde de güçlü olduğunu ortaya koyuyor. Özellikle karmaşık, gürültülü ortamlarda ve küçük nesnelerin bulunduğu görüntülerde daha dayanıklı sonuçlar veriyor.

Çok modlu büyük dil modelleri (MLLM'ler), metin ve görsel verileri birlikte işleyebilen yapay zeka sistemleri olarak biliniyordu. Ancak yeni bir araştırma, bu modellerin salt görsel görevlerde de şaşırtıcı yeteneklere sahip olduğunu gösteriyor.

Araştırmacılar, bu modelleri büyük ölçekli görsel arama sistemlerinde test ettiler. Sistem, bir görüntüyü girdi olarak alıp benzer görselleri bulma konusunda çalışıyor. Önemli olan nokta, modellerin bu iş için hiçbir ek eğitim almıyor olması. Bunun yerine, çok modlu ön eğitim sırasında öğrendikleri görsel ayrım becerileri kullanılıyor.

Geleneksel yaklaşımlardan farklı olarak, araştırmacılar modele görüntü çiftleri gösteriyor ve sonraki token olasılıklarını benzerlik skorlarına dönüştürüyor. Bu yöntem, özelleştirilmiş mimarilere ve ince ayar işlemlerine ihtiyaç duymuyor.

Ölçeklenebilirlik sorunu ise bellek verimli indeksleme ve en iyi k aday yeniden sıralama teknikleriyle çözülüyor. Çeşitli kıyaslama testlerinde, bu modeller kendi ana alanları dışında bile görev-spesifik yeniden sıralayıcıları geçiyor. Özellikle karışık, engellenmiş ve küçük nesneli görüntülerde üstün dayanıklılık gösteriyor.

Yapay zeka modelleri artık görsel arama motorlarında da ustalaşıyor

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Sosyal medya seçim karşıtı reklamları oy verme davranışını etkiliyor

Çin'de 'Uzanıp Yatma' Akımı: Sosyal Direnişin Dilbilimsel Analizi

Adil Tasarlanan Eşleştirme Sistemleri Bile Eşitsiz Sonuçlar Üretebiliyor