Yapay zeka alanında çığır açacak yeni bir gelişme, yemek fotoğrafları ile tarifler arasında bağlantı kurabilen akıllı sistemlerin geliştirilmesinde yaşandı. Araştırmacılar, SIMMER (Single Integrated Multimodal Model for Embedding Recipes) adını verdikleri bu sistemi geliştirerek, görsel ve metinsel veriler arasındaki karmaşık ilişkileri anlamlandırma konusunda önemli bir adım attı.
Geleneksel yöntemler, görüntü ve metin için ayrı kodlayıcılar kullanan ikili mimariler üzerine kuruluydu ve bu yaklaşım karmaşık hizalama stratejileri gerektiriyordu. SIMMER ise bu paradigmayı değiştirerek, hem yemek fotoğraflarını hem de tarif metinlerini işleyebilen tek bir birleşik kodlayıcı kullanıyor.
Sistem, çok modlu büyük dil modeli teknolojisi olan VLM2Vec'i temel alıyor. Araştırmacılar, tariflerin yapısal doğasına uygun özel şablonlar tasarladı - başlık, malzemeler ve pişirme talimatlarını içeren bu şablonlar, modelin etkili gömülü temsiller oluşturmasını sağlıyor.
Bu teknoloji, beslenme yönetimi, diyet kayıtları tutma ve yemek pişirme asistanı uygulamaları gibi alanlarda geniş kullanım potansiyeline sahip. Özellikle mobil uygulamalarda, kullanıcıların sadece yemek fotoğrafı çekerek tariflere ulaşabilmesi mümkün hale gelebilir.