1393-1416 / 1.523 haber Sayfa 59 / 64
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka Güvenlik Açıklarını Tespit Eden Kapsamlı Test Veri Seti Geliştirildi

Büyük dil modellerinin güvenlik kritik uygulamalarda kullanımının artmasıyla birlikte, bu sistemlerin kötü niyetli saldırılara karşı dayanıklılığının test edilmesi büyük önem kazandı. Araştırmacılar, mevcut test veri setlerindeki tutarsızlık ve sınırlı kapsam sorunlarını çözmek için RedBench adlı kapsamlı bir veri seti geliştirdi. Bu yeni sistem, 37 farklı benchmark veri setini birleştirerek toplam 29.362 test örneği sunuyor ve yapay zeka modellerinin güvenlik açıklarının sistematik şekilde değerlendirilmesini sağlıyor. RedBench, 22 risk kategorisi ve 19 farklı alan içeren standartlaştırılmış bir sınıflandırma sistemi kullanarak, araştırmacılara tutarlı ve kapsamlı değerlendirme imkânı sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka Artık Daha Akıllıca Bilgi Toplayıp Sentezleyebilecek

Yapay zeka sistemlerinin bilgi yoğun görevlerdeki performansını artıran RAG teknolojisinde önemli bir ilerleme kaydedildi. Araştırmacılar, mevcut sistemlerin bilgi parçalarını düzensiz şekilde işlemesi sorununa çözüm olarak Disco-RAG adlı yeni bir yaklaşım geliştirdi. Bu sistem, metinler arasındaki yapısal ilişkileri ve söylem bağlantılarını analiz ederek, dağınık kaynaklardan gelen bilgileri daha tutarlı şekilde birleştiriyor. Geleneksel yöntemlerin aksine, yerel hiyerarşileri yakalayan söylem ağaçları ve metinler arası tutarlılığı modelleyen retorik grafikler kullanıyor. Soru cevaplama ve uzun doküman özetleme testlerinde yapılan deneyler, bu yaklaşımın mevcut en iyi yöntemleri geride bıraktığını gösteriyor. Bu gelişme, yapay zekanın karmaşık bilgileri işleme ve sentezleme becerisinde önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka Halüsinasyonlarına Karşı Yeni Çözüm: VIB-Probe

Görüntü ve dil işleme yeteneklerine sahip yapay zeka modellerinin en büyük sorunlarından biri halüsinasyon - yani gerçekte olmayan şeyleri görüyormuş gibi davranması. Araştırmacılar, bu sorunu çözmek için VIB-Probe adlı yeni bir sistem geliştirdi. Bu teknoloji, yapay zekanın iç mekanizmalarını inceleyerek hangi dikkat başlıklarının doğru bilgi ürettiğini tespit ediyor. Varyasyonel Bilgi Darboğazı teorisini kullanan sistem, gereksiz bilgi gürültüsünü filtrelerken önemli kalıpları yakalıyor. Mevcut yöntemler çoğunlukla çıktıları kontrol ederken, VIB-Probe sistemin içini inceleyerek sorunun kaynağına iniyor. Bu gelişme, görsel-dilsel görevlerde çalışan yapay zeka modellerinin güvenilirliğini artırabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka NPU çipleri için kernel üreten yeni sistem geliştirildi

Nöral İşlem Birimleri (NPU), yapay zeka sistemlerinin hızlı çalışması için kritik bileşenler haline geldi. Ancak bu çiplerin tam performansını kullanabilmek, özel yazılım kernelleri geliştirmeyi gerektiriyor ve bu süreç oldukça karmaşık. Araştırmacılar, büyük dil modellerinin NPU kernel üretiminde yaşadığı zorlukları ele alarak AscendKernelGen adlı yenilikçi bir sistem geliştirdi. Bu sistem, Ascend-CoT veri setini kullanarak gerçek dünya senaryolarından öğrenen bir yaklaşım benimsiyor. Çalışma, mevcut genel amaçlı dil modellerinin karmaşık NPU kernelleri üretmede neredeyse hiç başarılı olamadığını ortaya koyuyor. Geliştirilen çözüm, üretim ve değerlendirmeyi entegre eden bir çerçeve sunarak NPU yazılım geliştirme sürecini otomatikleştirmeyi hedefliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Gizlilik Korumalı Yapay Zeka Algoritmalarında Yeni Hata Sınır Yöntemi

Araştırmacılar, makine öğrenmesinde gizlilik koruma ile genelleme performansı arasındaki dengeyi daha iyi anlamamızı sağlayacak yeni bir matematiksel yaklaşım geliştirdi. Çalışma, diferansiyel gizlilik kullanan algoritmaların ne kadar iyi genelleme yapabileceğini tahmin etmek için bilgi teorisi ve tipiklik kavramlarını birleştiriyor. Bu yöntem, özellikle kişisel verilerle çalışan yapay zeka sistemlerinde kritik önem taşıyor. Araştırmacılar, mevcut sınırları önemli ölçüde geliştiren ve hesaplaması kolay formüller sunarak, gizli verilerin güvenliğini korurken algoritma performansını optimize etme konusunda yeni olanaklar açıyor. Bu gelişme, sağlık, finans ve sosyal medya gibi hassas veri alanlarında çalışan yapay zeka sistemleri için büyük pratik değer taşıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka Güvenliğinde Yeni Tehdit: Akıl Yürütme Korsanlığı Keşfedildi

Araştırmacılar, büyük dil modellerinde (LLM) şimdiye kadar göz ardı edilen kritik bir güvenlik açığını ortaya çıkardı. 'Akıl Yürütme Korsanlığı' adı verilen bu yeni saldırı türü, yapay zekanın ana görevini değiştirmeden karar verme mantığını manipüle ediyor. Geleneksel güvenlik önlemlerinin hedef değiştirme saldırılarına odaklandığını belirten bilim insanları, bu yeni yaklaşımın modellerin karar alma kriterlerini gizlice değiştirerek yanlış sonuçlara ulaşmasına neden olabileceğini gösterdi. Bulgular, mevcut yapay zeka güvenlik stratejilerinin yetersiz olduğunu ve daha kapsamlı koruma mekanizmalarına ihtiyaç duyulduğunu ortaya koyuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka Bilimsel Yazıları Nasıl Değerlendirebilir?

Araştırmacılar, bilimsel yazıların kalitesini değerlendirmek için yeni bir yapay zeka modeli geliştirdi. Bilimsel metin yazımı, derin alan bilgisi ve özel gereksinimler gerektiren karmaşık bir süreç. Mevcut yapay zeka sistemleri genellikle genel amaçlı değerlendirmeler için tasarlandığından, bilimsel yazıların çok boyutlu kriterlerini değerlendirmede yetersiz kalıyor. Yeni yaklaşım, her görev için ayrı ayrı eğitim yapmaya gerek kalmadan, farklı bilimsel yazı türlerini etkin şekilde değerlendirebiliyor. Bu gelişme, özellikle kaynak kısıtlı ortamlarda bilimsel yazı değerlendirmesi yapan araştırmacılar için büyük kolaylık sağlayabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Tek Örnekle Öğrenen Yapay Zeka: 1S-DAug ile Yeni Bir Dönem

Stanford araştırmacıları, yapay zekanın tek bir görsel örnekten öğrenmesini sağlayan devrim niteliğinde bir yöntem geliştirdi. 1S-DAug adlı bu teknik, sadece bir görüntüden yola çıkarak çeşitli varyasyonlar üretip bunları birleştirerek daha güvenilir tahminler yapabiliyor. Geleneksel makine öğrenmesi yöntemlerinin binlerce örnek gerektirdiği durumlarda, bu yeni yaklaşım minimal veriyle maksimum performans elde etmeyi hedefliyor. miniImageNet veri setinde %20'ye varan doğruluk artışı sağlayan sistem, mevcut modellere eklenti olarak entegre edilebiliyor. Bu gelişme, tıbbi görüntü analizi ve nadir türlerin tanınması gibi sınırlı veri bulunan alanlarda yapay zeka kullanımına yeni kapılar açıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

CoMeT: Yapay Zeka Modellerinin Sonsuz Uzunluktaki Metinleri İşlemesini Sağlayan Yeni Mimari

Araştırmacılar, büyük dil modellerinin uzun metinleri işlerken karşılaştıkları bellek sorununu çözen devrimci bir mimari geliştirdi. CoMeT adlı bu sistem, geleneksel Transformer modellerinin karesel karmaşıklık problemini çözerek, sabit bellek kullanımı ve doğrusal zaman karmaşıklığı ile sınırsız uzunluktaki metinleri işleyebiliyor. İkili bellek sistemi kullanan CoMeT, yakın geçmiş için geçici bellek ve uzun vadeli bağımlılıklar için küresel bellek yönetiyor. Mevcut modellere minimum düzeyde ince ayar ile entegre edilebilen bu plug-in modül, yapay zeka modellerinin kitap uzunluğundaki metinleri, araştırma makalelerini ve uzun dökümanları çok daha verimli işlemesini mümkün kılıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka, kullanıcıların psikolojik motivasyonlarını analiz ederek öneri yapıyor

Araştırmacılar, kullanıcıların geçmiş davranışlarından psikolojik motivasyonlarındaki değişimleri analiz ederek daha etkili öneriler yapan yeni bir yapay zeka sistemi geliştirdi. SRSUPM adlı bu sistem, mevcut öneri algoritmalarının aksine kullanıcıların motivasyonlarındaki dinamik değişiklikleri izleyerek çok daha kişiselleştirilmiş sonuçlar sunuyor. Geleneksel sistemler yalnızca son davranışları tek bir vektöre sıkıştırırken, yeni yaklaşım psikolojik motivasyon değişimlerini sayısal olarak ölçüp çok seviyeli durumları modelliyor. Bu teknoloji, özellikle e-ticaret platformları, müzik servisleri ve sosyal medya uygulamalarında kullanıcı deneyimini önemli ölçüde iyileştirebilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

LLaMo: Hareket ve Dil İşlemeyi Birleştiren Yeni Yapay Zeka Modeli

Araştırmacılar, hareket verilerini ve doğal dili aynı anda anlayıp üretebilen yeni bir yapay zeka modeli geliştirdi. LLaMo adlı bu sistem, mevcut dil modellerinin yeteneklerini kaybetmeden hareket verilerini işleyebiliyor. Geleneksel yöntemler hareket verilerini parçalı hale getirirken titreme sorunları yaşıyordu ve sınırlı veri nedeniyle dil yeteneklerini kaybediyordu. Yeni yaklaşım, Mixture-of-Transformers mimarisi kullanarak bu sorunları çözüyor ve sürekli temsil yöntemiyle daha akıcı sonuçlar elde ediyor. Bu gelişme, robotik, animasyon ve insan-bilgisayar etkileşimi alanlarında önemli uygulamalara kapı açabilir. Model, hem hareket komutlarını anlayıp üretebiliyor hem de doğal dil işleme yeteneklerini koruyabiliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

AI Ajanlarının Performansını Öngören Yeni Ölçüm Yöntemi: Bipredictability

Yapay zeka araştırmacıları, gerçek dünyada kullanılan AI ajanlarının performansındaki düşüşü önceden tespit edebilecek yeni bir yöntem geliştirdi. Mevcut izleme sistemleri genellikle performans çöküşü olduktan sonra tepki veriyor. Yeni yaklaşım ise bilgi teorisini kullanarak AI ajanının gözlem, eylem ve sonuçlar arasındaki bilgi döngüsünün ne kadar etkili çalıştığını ölçüyor. 'Bipredictability' adı verilen bu ölçüm, sistemin toplam belirsizliğinin ne kadarının öngörülebilir bilgiye dönüştürüldüğünü hesaplıyor. Bu gelişme, otonom araçlardan finansal işlem sistemlerine kadar birçok kritik alanda çalışan AI sistemlerinin güvenilirliğini artırabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Havacılık yapılarında yeni modal analiz yöntemi geliştirdi

Araştırmacılar, havacılık yapılarının titreşim özelliklerini analiz etmek için yeni bir yöntem geliştirdi. NExT-LF adı verilen bu teknik, uçak ve uzay araçlarının yapısal sağlığını izlemede kullanılan geleneksel yöntemlerin eksikliklerini gideriyor. Mevcut teknikler büyük sistemlerde karmaşık hesaplamalar gerektirirken, gürültülü ortamlarda da zorlanıyordu. Yeni yöntem, Loewner Framework'ün hesaplama verimliliğini Natural Excitation Technique ile birleştirerek bu sorunları aşıyor. Tangential interpolasyon sayesinde daha hızlı ve doğru sonuçlar elde ediliyor. Bu gelişme, uçakların yapısal durumunun gerçek zamanlı izlenmesi ve güvenlik açısından kritik öneme sahip.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka ile İnsan-Ürün Fotoğrafları: HiFi-Inpaint Teknolojisi

Araştırmacılar, e-ticaret ve dijital pazarlama sektörü için devrimsel bir yapay zeka teknolojisi geliştirdi. HiFi-Inpaint adlı bu sistem, insan ve ürünlerin birlikte gösterildiği fotoğraflarda ürün detaylarını koruyarak yüksek kaliteli görüntüler üretebiliyor. Geleneksel yöntemlerin aksine, bu teknoloji referans görüntüleri kullanarak ürünlerin dokusundan rengine kadar tüm detaylarını hassas şekilde koruyor. Sistem, Paylaşımlı Gelişim Dikkat mekanizması ve Detay Farkında Kayıp fonksiyonu gibi yenilikçi yaklaşımlarla çalışıyor. Bu gelişme, özellikle e-ticaret sitelerinde ürün tanıtımları, reklam kampanyaları ve dijital pazarlama materyallerinin hazırlanmasında büyük kolaylık sağlayacak. Teknoloji, mevcut yapay zeka modellerinin ürün detaylarını koruma konusundaki eksikliklerini gidererek sektöre yeni bir soluk getiriyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka videoları artık nesne değişimlerini anlıyor mu? Yeni test sistemi açıkladı

Metinden video üreten yapay zeka modelleri görsel kalite açısından büyük mesafe kat etti, ancak eylemlerin nesneler üzerindeki etkilerini ne kadar doğru anlayabiliyorlar? Araştırmacılar bu soruyu yanıtlamak için OSCBench adlı yeni bir değerlendirme sistemi geliştirdi. Sistem, patates soyma veya limon dilimleme gibi mutfak eylemlerinde nesnelerin durumunun nasıl değiştiğini yapay zekanın ne ölçüde kavrayabildiğini ölçüyor. Altı farklı yapay zeka modeli üzerinde yapılan testler, mevcut teknolojinin nesne durum değişikliklerini anlama konusunda henüz gelişime açık olduğunu ortaya koydu. Bu çalışma, görsel kalitesi yüksek videolar üretebilen yapay zekanın eylem-sonuç ilişkilerini kavrama becerisini değerlendirmenin önemini vurguluyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka Video Anlama Yetisinde Yeni Test: Uzamsal-Zamansal Akıl Yürütme

Araştırmacılar, çok modlu büyük dil modellerinin video içeriklerini ne kadar iyi anlayabildiğini test etmek için yeni bir değerlendirme sistemi geliştirdi. VAEX-BENCH adlı bu sistem, yapay zekanın sadece videolarda gördüklerini tanımlamasını değil, farklı zamanlardaki olayları birleştirerek soyut çıkarımlar yapabilme becerisini ölçüyor. Mevcut testler genellikle videoda açıkça görülen bilgileri tespit etmeye odaklanırken, bu yeni yaklaşım yapay zekanın gerçek dünya senaryolarında daha karmaşık görsel akıl yürütme yapabilme kapasitesini değerlendiriyor. Sistem, nesne seviyesinden oda planlamasına kadar farklı karmaşıklık düzeylerinde senaryolar sunarak, yapay zekanın uzamsal ve zamansal bilgileri entegre etme yeteneğini test ediyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay Zeka İçin Yeni Meydan Okuma: İnsanlar %100, YZ Sistemleri %1

Araştırmacılar, yapay zeka sistemlerinin gerçek akıl yürütme yeteneklerini test etmek için ARC-AGI-3 adlı yeni bir benchmark geliştirdi. Bu test, yapay zeka ajanlarının açık talimat olmadan çevre dinamiklerini öğrenmesi, hedefleri çıkarsaması ve etkili eylem planları oluşturması gereken soyut, etkileşimli ortamlar sunuyor. Test sonuçları çarpıcı: İnsanlar bu görevlerin tamamını çözebilirken, 2026 Mart itibariyle en gelişmiş YZ sistemleri %1'den düşük başarı oranı gösteriyor. ARC-AGI-3, dil ve harici bilgi kullanımından kaçınarak sadece temel bilişsel yeteneklere odaklanıyor ve insan test katılımcılarıyla kapsamlı doğrulama sürecinden geçiriliyor. Bu büyük performans farkı, mevcut YZ teknolojilerinin gerçek genel zeka seviyesine ulaşmak için hâlâ önemli mesafe kat etmesi gerektiğini ortaya koyuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka yazılım testlerinde yeni dönem: TestDecision algoritması geliştirildi

Araştırmacılar, açık kaynaklı büyük dil modellerinin yazılım testi konusundaki en büyük eksiklerinden birini çözen yeni bir algoritma geliştirdi. TestDecision adlı bu sistem, test paketi oluşturma sürecini matematiksel optimizasyon problemi olarak ele alarak, mevcut testlerin kapsamını değerlendirip en yüksek faydayı sağlayacak yeni testleri seçebiliyor. Geleneksel sistemlerin aksine, bu yaklaşım bütüncül bir bakış açısıyla çalışarak daha verimli test süreçleri oluşturuyor. Çalışma, özellikle veri gizliliği ve maliyet endişeleri nedeniyle açık kaynaklı modelleri tercih eden akademik ve endüstriyel kullanıcılar için önemli bir gelişme sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka konuşan yüzlerde duygu düzenlemesinde yeni çığır açtı

Araştırmacılar, konuşan yüz videolarında duygu düzenleme konusunda devrim niteliğinde bir yöntem geliştirdi. Mevcut teknolojiler duygusal ifadelerde sınırlı kalırken, yeni Cross-Modal Emotion Transfer tekniği farklı veri türlerini birleştirerek daha geniş bir duygu yelpazesi sunuyor. Geleneksel yöntemler kategorik etiketlerle sınırlı kalırken, ses tabanlı sistemler duygu ve dil içeriğini ayırmakta zorlanıyor. Görüntü tabanlı yaklaşımlar ise yüksek kaliteli referans görüntüler gerektiriyor. Bu yeni teknik, hem ses hem görüntü verilerini akıllıca kullanarak bu sorunları aşmayı hedefliyor ve yapay zeka destekli video üretiminde önemli bir adım atıyor.

arXiv (CS + AI) 1
Teknoloji & Yapay Zeka
20 Apr

Otonom araçlar için yeni AI sistemi beklenmedik nesneleri daha iyi tanıyor

Otonom sürüş teknolojisinde önemli bir adım: araştırmacılar, LiDAR sensörleriyle çalışan yapay zeka sistemlerinin beklenmedik nesneleri tespit etme yetisini artıran yeni bir framework geliştirdi. Neural Distribution Prior (NDP) adlı bu sistem, eğitim verilerinde bulunmayan nesneleri tanımada mevcut yöntemlerin ana sorunu olan sınıf dengesizliği problemini çözüyor. Geleneksel sistemler tüm nesne sınıflarının eşit dağıldığını varsayar, ancak gerçek dünyada bu böyle değil. NDP, ağ tahminlerinin dağılım yapısını modelleyerek ve öğrenilen dağılım önceliğine göre skorları yeniden ağırlıklandırarak bu sorunu aşıyor. Sistem ayrıca dikkat tabanlı bir modül ile sınıf bağımlı güven yanlılığını düzeltiyor ve Perlin gürültüsü tabanlı sentez stratejisi kullanıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

ABot-Claw: Robotları İşbirliği Yapabilen Kalıcı Ajanlara Dönüştürüyor

Araştırmacılar, robotik alanında devrim yaratabilecek yeni bir sistem olan ABot-Claw'u geliştirdi. Bu sistem, farklı türdeki robotların uzun süreli görevlerde işbirliği yapmasını, deneyimlerinden öğrenmesini ve sürekli kendilerini geliştirmesini sağlıyor. Mevcut robotik sistemler genellikle kısa vadeli görevlerle sınırlı kalıyor ve gerçek dünya koşullarında zorlanıyor. ABot-Claw ise robotlara kalıcı hafıza, görsel tabanlı öğrenme ve çoklu robot koordinasyonu yetenekleri kazandırıyor. Sistem, Vision-Language-Action modellerinin güçlü algılama yeteneklerini, System 2 bilişsel mekanizmalarla birleştirerek robotların daha akıllı ve özerk hareket etmesini mümkün kılıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka ile yazılım testlerini otomatikleştiren yeni sistem geliştirildi

Yazılım geliştirmede en zorlu aşamalardan biri olan test sürecini devrim niteliğinde değiştiren yeni bir sistem geliştirildi. MR-Coupler adlı bu sistem, büyük dil modellerini kullanarak yazılım kodlarındaki fonksiyonel bağlantıları analiz ediyor ve otomatik olarak test senaryoları üretiyor. Geleneksel yaklaşımların aksine, sistem uzman bilgisi gerektirmeden kaynak kodda mevcut olan fonksiyonel eşleşmeleri tespit ederek metamorfik test ilişkileri kurabiliyor. 100 insan yazımı test durumu ve 50 gerçek dünya projesi üzerinde yapılan değerlendirmeler, sistemin yanlış alarm oranını önemli ölçüde azalttığını gösteriyor. Bu gelişme, yazılım kalitesini artırırken test süreçlerini hızlandıracak ve yazılım geliştirme maliyetlerini düşürecek potansiyele sahip.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

AI Ajanları Araç Kullanmada Başarılı, Navigasyonda Zayıf

Araştırmacılar, yapay zeka ajanlarının karmaşık görevlerdeki performansını ölçmek için yeni bir benchmark geliştirdi. 'The Amazing Agent Race' adlı bu test, mevcut değerlendirme sistemlerinin çoğunlukla basit, doğrusal görevlerden oluştuğunu ortaya koyuyor. Yeni benchmark, Wikipedia üzerinde gezinme, çoklu araç kullanımı ve sonuçları birleştirme gerektiren 1400 farklı görev içeriyor. Test sonuçları, en başarılı AI ajanının bile sadece %37.2 doğruluk oranına ulaşabildiğini gösteriyor. Özellikle navigasyon hatalarının dominant olduğu (%27-52 arası başarısızlık) bu çalışma, AI ajanlarının araç kullanımında güçlü olmasına rağmen karmaşık ortamlarda yön bulmakta zorlandığını kanıtlıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

Yapay zeka modelleri şekilleri gerçekten anlıyor mu? Yeni test kritik sonuçlar verdi

Görme-dil modelleri (VLM) birçok görevi başarıyla yerine getirse de, bu sistemlerin geometrik şekilleri gerçekten anlayıp anlamadığı belirsizdi. Araştırmacılar, bu modellerin renk ve doku ipuçlarından yararlanarak başarılı görünüp görünmediğini test etmek için BareBones adlı yeni bir değerlendirme sistemi geliştirdi. Bu benchmark, yapay zeka modellerinin saf geometrik anlama yetisini ölçmek için piksel düzeyinde silüetler kullanıyor. Altı farklı veri setinden yararlanılarak oluşturulan bu test, görsel yapay zeka sistemlerinin gerçek geometrik kavrayış kapasitelerini ortaya çıkarmayı hedefliyor. Çalışma, mevcut değerlendirme yöntemlerinin çevresel ipuçlarını sızdırdığını ve bu durumun modellerin gerçek yeteneklerini maskelediğini gösteriyor.

arXiv (CS + AI) 0