Çok modlu büyük dil modelleri (MLLM'ler), metin ve görsel verileri birlikte işleyebilen yapay zeka sistemleri olarak biliniyordu. Ancak yeni bir araştırma, bu modellerin salt görsel görevlerde de şaşırtıcı yeteneklere sahip olduğunu gösteriyor.
Araştırmacılar, bu modelleri büyük ölçekli görsel arama sistemlerinde test ettiler. Sistem, bir görüntüyü girdi olarak alıp benzer görselleri bulma konusunda çalışıyor. Önemli olan nokta, modellerin bu iş için hiçbir ek eğitim almıyor olması. Bunun yerine, çok modlu ön eğitim sırasında öğrendikleri görsel ayrım becerileri kullanılıyor.
Geleneksel yaklaşımlardan farklı olarak, araştırmacılar modele görüntü çiftleri gösteriyor ve sonraki token olasılıklarını benzerlik skorlarına dönüştürüyor. Bu yöntem, özelleştirilmiş mimarilere ve ince ayar işlemlerine ihtiyaç duymuyor.
Ölçeklenebilirlik sorunu ise bellek verimli indeksleme ve en iyi k aday yeniden sıralama teknikleriyle çözülüyor. Çeşitli kıyaslama testlerinde, bu modeller kendi ana alanları dışında bile görev-spesifik yeniden sıralayıcıları geçiyor. Özellikle karışık, engellenmiş ve küçük nesneli görüntülerde üstün dayanıklılık gösteriyor.