Teknoloji & Yapay Zeka

Yemek Fotoğrafından Tarif Bulma: Yapay Zeka Tek Model ile Çözümü

Araştırmacılar, yemek fotoğrafları ve tarifler arasında bağlantı kurabilen yenilikçi bir yapay zeka sistemi geliştirdi. SIMMER adlı bu sistem, geleneksel ikili kodlayıcı yaklaşımlarının aksine tek bir birleşik model kullanarak hem görüntüleri hem de metinleri işleyebiliyor. Sistem, çok modlu büyük dil modeli teknolojisine dayalı VLM2Vec mimarisini kullanıyor ve tarifin yapısına özel hazırlanmış şablonlarla çalışıyor. Bu gelişme, beslenme yönetimi, diyet takibi ve yemek pişirme asistanı uygulamalarında önemli ilerlemeler sağlayabilir. Araştırma, farklı veri türleri arasındaki semantik boşluğu doldurma konusunda da yeni bir yaklaşım sunuyor.

Yapay zeka alanında çığır açacak yeni bir gelişme, yemek fotoğrafları ile tarifler arasında bağlantı kurabilen akıllı sistemlerin geliştirilmesinde yaşandı. Araştırmacılar, SIMMER (Single Integrated Multimodal Model for Embedding Recipes) adını verdikleri bu sistemi geliştirerek, görsel ve metinsel veriler arasındaki karmaşık ilişkileri anlamlandırma konusunda önemli bir adım attı.

Geleneksel yöntemler, görüntü ve metin için ayrı kodlayıcılar kullanan ikili mimariler üzerine kuruluydu ve bu yaklaşım karmaşık hizalama stratejileri gerektiriyordu. SIMMER ise bu paradigmayı değiştirerek, hem yemek fotoğraflarını hem de tarif metinlerini işleyebilen tek bir birleşik kodlayıcı kullanıyor.

Sistem, çok modlu büyük dil modeli teknolojisi olan VLM2Vec'i temel alıyor. Araştırmacılar, tariflerin yapısal doğasına uygun özel şablonlar tasarladı - başlık, malzemeler ve pişirme talimatlarını içeren bu şablonlar, modelin etkili gömülü temsiller oluşturmasını sağlıyor.

Bu teknoloji, beslenme yönetimi, diyet kayıtları tutma ve yemek pişirme asistanı uygulamaları gibi alanlarda geniş kullanım potansiyeline sahip. Özellikle mobil uygulamalarda, kullanıcıların sadece yemek fotoğrafı çekerek tariflere ulaşabilmesi mümkün hale gelebilir.

Özgün Kaynak
arXiv (CS + AI)
SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.