“CLIP” için sonuçlar

Teknoloji & Yapay Zeka

1 May

Tek Metin CLIP'i Nasıl Yanıltıyor? Yapay Zeka Modellerinde Hub Açığı Keşfedildi

Araştırmacılar, görsel ve metin verilerini birlikte işleyen CLIP gibi yapay zeka modellerinde kritik bir güvenlik açığı keşfetti. 'Hub metinler' olarak adlandırılan bu sorun, yüksek boyutlu embedding uzaylarında ortaya çıkıyor ve tek bir metin parçasının alakasız binlerce görsel ile yanlış şekilde eşleştirilmesine neden oluyor. Bu durum, görsel arama sistemlerinden otomatik değerlendirme metriklerine kadar pek çok uygulamada ciddi sorunlar yaratabilir. MSCOCO ve Flickr30k gibi veri setlerinde yapılan deneyler, bu hub metinlerin görsel-metin benzerlik skorlarını mantıksız şekilde yükselttiğini gösterdi.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Tıp & Sağlık

21 Apr

Göğüs röntgenlerini daha doğru yorumlayan yapay zeka modeli geliştirildi

Araştırmacılar, göğüs röntgenlerindeki hastalıkları tanıyabilen yeni bir yapay zeka sistemi geliştirdi. ProtoCLIP adlı bu sistem, daha önce hiç görmediği hastalıkları bile yüksek doğrulukla tespit edebiliyor. Özellikle pnömotoraks gibi kritik durumları tanımada mevcut sistemlerden 2-10 puan daha iyi performans gösteriyor. Sistem, hastalıkların birlikte görülme sıklığından kaynaklanan yanılgıları azaltmak için özel veri seçimi ve gelişmiş öğrenme teknikleri kullanıyor. Bu gelişme, radyoloji alanında yapay zekanın daha güvenilir hale gelmesi açısından önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Deepfake Tespitinde Metin Tabanlı Yeni Yaklaşım

Araştırmacılar, sahte yüz görüntülerini tespit etmek için CLIP yapay zeka modelinin metin özelliklerinden yararlanan yenilikçi bir yöntem geliştirdi. Separable Prompt Learning (SePL) adı verilen bu teknik, geleneksel görsel odaklı yaklaşımların aksine metin modalitesine odaklanarak deepfake tespitinde daha etkili sonuçlar elde ediyor. Yöntem, görüntülerdeki sahtelik belirtileri ile gerçek bilgileri ayrıştırarak, yapay zeka modelinin bu ayrımı daha doğru yapmasını sağlıyor. Bu gelişme, artan deepfake tehditlerine karşı daha güvenilir tespit sistemleri oluşturulması açısından önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka ile Deepfake Tespitinde Çığır Açan Görüntü İşleme Sistemi

Günümüzde deepfake görüntüleri tespit etmek, üretken yapay zeka modellerinin hızla gelişmesi nedeniyle zorlaşıyor. Araştırmacılar, bu soruna karşı Vision Transformer teknolojisini kullanarak yenilikçi bir çözüm geliştirdi. DINOv2, AIMv2 ve OpenCLIP gibi gelişmiş görü transformatörlerini bir araya getiren bu sistem, sahte görüntüleri tespit etmede %96,77 doğruluk oranına ulaştı. Geleneksel CNN tabanlı yöntemlere kıyasla üstün performans gösteren sistem, IEEE SP Cup 2025'te birinci oldu. Bu başarı, dijital medya güvenliği açısından önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık Unutmadan Yeni Bilgiler Öğrenebilecek

Araştırmacılar, yapay zeka modellerinin yeni kategorileri öğrenirken eski bilgilerini kaybetme sorununu çözen yeni bir yöntem geliştirdi. GR4CIL adlı bu sistem, CLIP modellerinin sürekli öğrenme yeteneğini artırarak, daha önce öğrenilen bilgileri korurken yeni kavramları edinmeyi sağlıyor. Geleneksel yapay zeka modelleri yeni verilerle eğitildiğinde eski bilgilerini unutma eğiliminde, ancak bu yeni yaklaşım görev odaklı bilgi yönlendirme ve ortogonal telafi mekanizması kullanarak bu sorunu aşıyor. Sistem, görsel ve metinsel bilgiyi ayrı şekilde işleyerek görevler arası müdahaleyi azaltıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri farklı görsel stillere nasıl uyum sağlıyor?

Bilgisayarlı görü sistemlerinin en büyük zorluklarından biri, eğitildikleri ortamdan farklı görsel stillere sahip alanlarda başarısız olmalarıdır. Araştırmacılar bu soruna çözüm olarak CrossFlowDG adlı yeni bir yaklaşım geliştirdi. Bu yöntem, görsel ve metinsel verileri birleştirerek yapay zekanın farklı alanlarda daha kararlı performans göstermesini sağlıyor. Geleneksel yöntemlerin aksine, CrossFlowDG görsel ve metin verilerini geometrik olarak birbirine yaklaştıran akış eşleştirme tekniği kullanıyor. Bu sayede model, görsel stillerdeki değişikliklerden etkilenmeden nesne sınıflandırmasında başarılı oluyor. VMamba görüntü kodlayıcısı ve CLIP metin kodlayıcısı kullanan sistem, alana özgü önyargıları azaltarak daha güvenilir sonuçlar üretiyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Hiç Görmediği Hareketleri de Tanıyabiliyor

Araştırmacılar, yapay zekanın daha önce hiç öğrenmediği video hareketlerini tanıyabilmesi için yenilikçi bir yöntem geliştirdi. CLIP modelini geliştiren bu sistem, hareket duyarlı ve statik görsel özellikleri birbirinden ayırarak, pozitif ve negatif metin ipuçlarıyla semantik hizalama yapıyor. Motion Separation Module ile hareketleri analiz eden sistem, gated cross-attention mekanizmasıyla gereksiz bilgileri filtreleyerek hareket temsilini iyileştiriyor. Standart benchmark testlerinde önceki CLIP tabanlı yaklaşımlardan daha başarılı sonuçlar elde eden bu yöntem, hem genel hem de detaylı hareket kategorilerinde güçlü sıfır-atışlı tanıma performansı sergiliyor. Bu gelişme, güvenlik kameralarından spor analizine kadar birçok alanda kullanılabilecek.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Aynı Anlama Gelen Kelimeleri Farklı Algılıyor

Görsel-dil modellerinin tutarlılığını araştıran yeni bir çalışma, şaşırtıcı sonuçlar ortaya koydu. 'Bir insan', 'bir kişi' ve 'bir yaya' gibi aynı anlama gelen farklı ifadeler kullanıldığında, yapay zeka modelleri görüntülerde farklı nesneleri tespit ediyor. COCO veri setindeki 263 görüntü üzerinde yapılan deneylerde, altı farklı benzer ifade kullanıldığında ortalama 2,11 farklı nesne seçimi yapıldığı gözlemlendi. Bu tutarsızlık rastgele değil, yapısal bir pattern gösteriyor. Araştırma, metin benzerliğinin bu farklılıkların sadece %34'ünü açıklayabildiğini ve sorunun temel olarak modellerin karar verme mekanizmasından kaynaklandığını gösteriyor. Bu bulgular, yapay zeka sistemlerinin güvenilirliği açısından önemli sorular ortaya çıkarıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Görselleri Yeteri Kadar Analiz Etmiyor

Stanford araştırmacıları, görsel-dil modellerinin beklenenden çok daha fazla metinsel açıklamalara dayandığını ve görsel bilgileri yeterince kullanmadığını keşfetti. Bu durum 'metin kısayolu öğrenmesi' olarak adlandırılıyor. Araştırmacılar, modellerin görsel güvenilirliğini test etmek için çelişkili metin-görsel çiftleri kullanarak yeni bir değerlendirme sistemi geliştirdi. Geometrik şekiller üzerinde yapılan deneyler, standart CLIP modelinin yanıltıcı metinlerle karşılaştığında performansının %27,5 düştüğünü gösterdi. Ancak optimize edilmiş versiyonda bu düşüş %9,8'e kadar azaltıldı. Bu bulgular, yapay zekanın görsel anlama kapasitesini geliştirmek için daha sofistike eğitim yöntemlerine ihtiyaç olduğunu ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık Kaynak Veri Olmadan da Yeni Alanlara Uyum Sağlayabiliyor

Araştırmacılar, yapay zeka modellerinin orijinal eğitim verilerine erişim olmadan farklı alanlarda çalışabilmesini sağlayan yeni bir yöntem geliştirdi. DIFO++ adlı bu yaklaşım, CLIP gibi görsel-dil modellerinin geniş bilgi birikiminden yararlanarak, sadece hedef alandaki etiketlenmemiş verilerle model uyarlaması yapabiliyor. Geleneksel yöntemlerin aksine, bu teknik sahte etiketleme hatalarını minimize ederek daha güvenilir sonuçlar elde ediyor. Yöntem, karşılıklı bilgi maksimizasyonu ve bilgi damıtma tekniklerini döngüsel olarak uygulayarak modeli hedefe özelleştiriyor. Bu gelişme, veri gizliliği ve telif hakları nedeniyle orijinal eğitim verilerine erişimin kısıtlı olduğu durumlarda büyük önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Üreticilerindeki Önyargılar Artık Çözümü Var

Metin-görsel AI modellerinin toplumsal önyargıları güçlendirmesi, etik kullanımlarında ciddi sorunlar yaratıyor. Araştırmacılar, bu soruna yenilikçi bir çözüm getirdi: Embedding Arithmetic yöntemi. Bu teknik, modelin ağırlıklarını değiştirmeden, sadece çıkarım aşamasında önyargıları azaltıyor. FLUX 1.0-Dev ve Stable Diffusion 3.5-Large modellerinde test edilen yöntem, görsel bağlamı korurken sosyal önyargıları başarıyla elimine ediyor. Sistem, uygulayıcılara adalet-tutarlılık dengesini ayarlama olanağı sunuyor. Araştırmacılar ayrıca geleneksel CLIP skorlarının sınırlarını aşmak için yeni bir değerlendirme metriği olan Kavram Tutarlılık Skoru'nu (CCS) geliştirdi.

arXiv (CS + AI) 0

Nörobilim & Psikoloji

21 Apr

Beyin sinyallerinden dil çözümleme: EEG ile düşünceleri okumak mümkün mü?

Araştırmacılar, beyin dalgalarını ölçen EEG cihazlarından doğal dil yapılarını çözümlemeye çalışıyor. Ancak yeni bir çalışma, EEG sinyallerinin düşük sinyal-gürültü oranı ve sınırlı bilgi kapasitesi nedeniyle tam cümle yapılarını değil, sıkıştırılmış anlamsal bileşenleri kodladığını öne sürüyor. Bu yaklaşımla geliştirilen Brain-CLIPLM sistemi, beyin sinyallerinden önce anlamsal çapaları çıkarıyor, sonra bu bilgiyi kullanarak cümleleri yeniden oluşturuyor. Çalışma, beyin-bilgisayar arayüzleri alanında önemli bir paradigma değişikliği öneriyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Kuantum Programlamada Yeni Dönem: Block-Encoding Arayüzü Geliştirildi

Kuantum bilgisayarlarda karmaşık algoritmaların uygulanmasını kolaylaştıran yeni bir programlama arayüzü geliştirildi. Eclipse Qrisp çerçevesi içinde yer alan BlockEncoding arayüzü, kuantum algoritmalarının temelini oluşturan block-encoding tekniğini geniş bilim camiasının kullanımına sunuyor. Bu yenilik, teorik olarak güçlü ancak pratikte uygulanması zor olan kuantum işlemlerini daha erişilebilir hale getiriyor. Kuantum Tekil Değer Dönüşümü ve Kuantum Sinyal İşleme gibi ileri kuantum protokolleri için kritik öneme sahip olan bu teknik, artık programlayıcılar tarafından daha kolay kullanılabilecek. Araştırmacılar, arayüzün hem teknik çerçeve tanıtımı hem de uygulamalı rehber niteliği taşıdığını belirtiyor. Geliştirme, kuantum programlamanın demokratikleştirilmesi yönünde önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

PowerCLIP: Yapay Zeka Görsel-Metin Anlayışında Yeni Dönem

Araştırmacılar, yapay zekanın görsel ve metinsel içeriği birlikte anlamasını geliştiren PowerCLIP adlı yeni bir sistem geliştirdi. Mevcut CLIP teknolojisi tek kelimelerle görsel bölgeleri eşleştirirken, PowerCLIP birden fazla görsel bölgeyi kapsayan karmaşık anlamları yakalayabiliyor. Sistem, görsel bölgelerin her türlü kombinasyonunu metin parçalarıyla eşleştirerek çalışıyor. Bu yaklaşım teorik olarak üstel hesaplama maliyeti gerektirse de, araştırmacılar geliştirdikleri özel algoritmayla bu karmaşıklığı önemli ölçüde azalttı. PowerCLIP'in en önemli avantajı, görüntülerdeki nesneler arası ilişkileri ve bağlamsal anlamları daha iyi kavrayabilmesi. Bu gelişme, yapay zekanın görsel içeriği anlama ve tanımlama yeteneğinde önemli bir ilerleme anlamına geliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Uydu Görüntülerini Eğitim Olmadan Anlayabilecek

Araştırmacılar, yüksek çözünürlüklü uydu görüntülerindeki karmaşık nesneleri önceden eğitim almadan tanıyabilen yeni bir yapay zeka sistemi geliştirdi. SDCI adı verilen bu sistem, farklı boyutlardaki nesneleri ve karmaşık sınırları daha başarılı şekilde tespit edebiliyor. Geleneksel yöntemler tek yönlü bilgi aktarımı kullanırken, yeni sistem iki farklı AI modelinin birbirleriyle işbirliği yapmasını sağlıyor. Bu gelişme, uydu görüntülerinin analizinde büyük kolaylık sağlayabilir ve özellikle çevre izleme, şehir planlama ve tarımsal uygulamalarda önemli faydalar sunabilir. Sistem, önceden belirlenmiş kategoriler dışındaki nesneleri de tanıyabilme kabiliyetiyle öne çıkıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Bilinmeyen Verileri Nasıl Daha İyi Tespit Edebilir?

Açık dünya senaryolarında çalışan yapay zeka sistemleri için kritik bir yetenek olan 'dağılım dışı tespit' konusunda önemli bir gelişme kaydedildi. Görsel-dil modelleri kullanarak bilinmeyen sınıflardan gelen örnekleri tanımlama konusunda yeni bir yaklaşım geliştirildi. Mevcut yöntemlerin farklı modaliteler arası mesafe tutarsızlığı sorunu tespit edilerek, InterNeg adlı yeni bir çerçeve önerildi. Bu sistem, metinsel ve görsel perspektiflerden tutarlı modaliteler arası mesafe geliştirmeyi sistematik olarak kullanıyor. Araştırma, CLIP benzeri modellerin optimize edildiği inter-modal mesafelerin daha etkili kullanılmasını hedefliyor. Geliştirilen yöntem, makine öğrenimi modellerinin gerçek dünya uygulamalarında karşılaştığı bilinmeyen durumları daha güvenilir şekilde tespit etmesini sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

BETA: Kapalı Kutu AI Modellerini Test Sırasında Anlık Uyarlama Teknolojisi

Araştırmacılar, API üzerinden erişilebilen kapalı kutu yapay zeka modellerinin gerçek zamanlı adaptasyonu için BETA adlı yeni bir framework geliştirdi. Mevcut yöntemler ya sınırlı uyarlama kapasitesi sunuyor ya da yüksek maliyetli sorgular gerektiriyor. BETA, hafif bir yerel model kullanarak gradient yolu oluşturuyor ve tahmin uyumlaştırma tekniği ile tutarlılık düzenlemesi uygulayarak ek API çağrısı olmadan stabil adaptasyon sağlıyor. ImageNet-C testlerinde ViT-B/16 modelinde %7.1, CLIP modelinde %3.4 doğruluk artışı elde eden sistem, beyaz kutu ve gri kutu yöntemlerini geride bırakıyor. Bu gelişme, özellikle değişken koşullarda çalışan AI sistemlerin performansını artırmak için önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modelleri İçin Yeni Kalibrasyon Yöntemi: HyCal

Araştırmacılar, görsel-dil modellerinin farklı disiplinlerden gelen dengesiz verilerle öğrenme yaparken karşılaştığı 'Domain Gravity' sorununu çözmeye yönelik yeni bir yöntem geliştirdi. HyCal adlı bu training-free kalibrasyon yöntemi, az örnekli sınıf artırımlı öğrenmede prototype kaymasını önleyerek modellerin performansını artırıyor. Çalışma, gerçek dünyada karşılaşılan heterojen ve dengesiz veri dağılımlarının yapay zeka modellerinin öğrenme sürecini nasıl olumsuz etkilediğini ortaya koyuyor ve pratik bir çözüm sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay zeka modelleri artık test sırasında yeni bilgileri öğrenebiliyor

Görsel-dil modellerinin bilinmeyen durumları tespit etme yetenekleri, yeni bir öğrenme yaklaşımıyla önemli ölçüde geliştirildi. Araştırmacılar, CLIP gibi modellerin test aşamasında karşılaştıkları yeni durumlardan dinamik olarak öğrenebilmesini sağlayan TTL (Test Zamanı Metinsel Öğrenme) adlı bir çerçeve geliştirdi. Bu yöntem, önceden tanımlanmış etiketlere bağımlı kalmak yerine, sürekli değişen test verilerinden anlık olarak yeni anlamsal bilgiler çıkarabiliyor. Sistem, güvenilir örnekleri seçerek gürültüyü minimize ederken, gerçek zamanlı adaptasyon sağlıyor. Bu gelişme, yapay zekanın dinamik ortamlarda daha etkili çalışabilmesi açısından kritik önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

İrlandaca Konuşma Tanıma İçin İlk Kapsamlı Değerlendirme Platformu Geliştirildi

Araştırmacılar, İrlandaca konuşma tanıma sistemlerini adil ve güvenilir şekilde karşılaştırmak için BlasBench adlı yeni bir değerlendirme platformu geliştirdi. Mevcut çok dilli kıyaslama testleri İrlandacanın kendine özgü dilbilgisel yapısını göz ardı ediyordu. Yeni platform, İrlandacanın fada işaretleri, lenition ve eclipsis gibi özelliklerini koruyan normalleştirici içeriyor. 12 farklı sistem üzerinde yapılan testlerde, Microsoft Azure'un en iyi performansı gösterdiği, OpenAI'ın Whisper modellerinin ise beklenmedik şekilde %100'ün üzerinde hata oranına ulaştığı ortaya çıktı.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka Modelleri Neden Nesnelerin Yönünü Anlayamıyor?

Çok modlu büyük dil modelleri (MLLM'ler), görüntülerdeki nesnelerin 2D yönelimini belirleme konusunda ciddi zorluklar yaşıyor. Yeni bir araştırma, bu sorunun kaynağını araştırarak görsel kodlayıcıların rolünü inceliyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcıların, geometrik akıl yürütme yerine görüntü-metin anlamsal hizalama için eğitilmiş olmasının bu başarısızlığın temel nedeni olabileceği hipotezi test ediliyor. Araştırmacılar, LLaVA OneVision ve Qwen2.5-VL gibi modellerden elde edilen kodlayıcı temsillerinin rotasyon bilgisini koruyup korumadığını ölçmek için kontrollü deneysel protokoller tasarlıyor.

arXiv (CS + AI) 0