"AI benchmark" araması

Arama Sonuçları

116 haber

LeGo-Code: Yapay Zeka Modelleri Karmaşık Kodları Nasıl Öğrenebilir?

Araştırmacılar, doğal dili kod haline çeviren büyük dil modellerinin karmaşık veritabanı sorgularında yaşadığı zorlukları çözmek için yeni bir yaklaşım geliştirdi. Text-to-SQL teknolojisi, teknik bilgisi olmayan kullanıcıların doğal dille veritabanlarından bilgi almasını sağlıyor ancak çoklu tablolar arası karmaşık bağlantılar ve iç içe geçmiş sorguları işlemekte zorlanıyor. LeGo-Code adlı yeni sistem, modüler müfredat öğrenme yöntemiyle bu sorunu çözmeyi hedefliyor. Geleneksel yaklaşımların aksine, basit örneklerden karmaşığa doğru sıralı öğrenme stratejisi uyguluyor. Spider ve BIRD gibi benchmark testlerde yapılan denemeler, naif müfredat yaklaşımının yeterli olmadığını, ancak daha sofistike stratejilerin umut verici sonuçlar verdiğini gösteriyor. Bu çalışma, yapay zekanın kod üretme kabiliyetlerini geliştirmek için önemli ipuçları sunuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Çinli araştırmacılar tıbbi metin arama sistemlerini hızlandıran yeni yapay zeka modeli geliştirdi

Çin'den araştırmacılar, tıbbi metinlerde arama yapan yapay zeka sistemlerinin hem daha hızlı hem de daha doğru çalışmasını sağlayan yeni bir model geliştirdi. CARE adı verilen bu sistem, asimetrik kodlayıcı mimarisi kullanarak büyük dil modellerinin yüksek hesaplama maliyeti sorununu çözmeyi hedefliyor. Araştırma ekibi aynı zamanda Çince tıbbi metinler için kapsamlı bir değerlendirme standardı olan CMedTEB'i de tanıttı. Bu benchmark, klinik uzmanların doğrulamasından geçen çoklu yapay zeka oylama sistemiyle hazırlandı ve metin arama, yeniden sıralama ve anlamsal benzerlik gibi üç farklı görevde sistem performansını test ediyor. Yeni yaklaşım, gerçek zamanlı tıbbi bilgi sistemlerinde kullanım potansiyeli taşıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Hafıza Testleri Yetersiz: ATANT Sürekliliği Ölçemiyor

Araştırmacılar, mevcut yapay zeka hafıza değerlendirme sistemlerinin büyük bir eksikliği olduğunu ortaya koydu. ATANT v1.1 çalışması, LOCOMO, LongMemEval, BEAM gibi popüler benchmark'ların, yapay zeka sistemlerinde 'süreklilik' özelliğini düzgün ölçemediğini gösteriyor. Süreklilik için gerekli 7 özellikten ortalama sadece 0.43'ünü kapsayan bu testler, AI hafıza sistemlerinin gerçek performansını değerlendirmekte yetersiz kalıyor. Bu durum, uzun vadeli bellek gerektiren AI uygulamalarının geliştirilmesinde ciddi bir engel oluşturuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay zeka modelleri kod hata ayıklama konusunda başarısız: Yeniden yazıyor ama düzeltmiyor

Araştırmacılar, günümüzün en gelişmiş yapay zeka modellerinin kod hata ayıklama konusunda beklenenin çok altında performans sergilediğini ortaya çıkardı. GPT ve DeepSeek gibi önde gelen modeller, hatalı kodları düzeltmek yerine baştan yeniden yazma eğilimi gösteriyor. Yeni geliştirilen Precise Debugging Benchmark (PDB) test sistemi, bu modellerin birim testlerden %76 oranında geçmesine rağmen, hassaslık açısından %45'in altında kaldığını gösteriyor. Bu durum, yapay zekanın gerçek programlama iş akışlarında kullanımı açısından önemli bir sınırlama oluşturuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

AI Artık Az Örnekle Görüntülerdeki İnce Ayrıntıları Ayırt Edebiliyor

Yapay zeka sistemleri genellikle görüntüleri sınıflandırmak için binlerce örneğe ihtiyaç duyar. Ancak yeni geliştirilen ARF-SFR-Net sistemi, sadece birkaç örnekle bile çok benzer görüntüleri birbirinden ayırabilmeyi başarıyor. Sistem, görüntülerdeki hem mekansal hem de frekans özelliklerini analiz ederken, farklı kategoriler için en uygun görüş alanı boyutunu otomatik olarak belirliyor. Bu teknoloji, tıbbi görüntüleme, kalite kontrol ve nadir türlerin tanımlanması gibi alanlarda devrim yaratabilir. Araştırmacılar, sistemin mevcut episodik eğitim yöntemlerine kolayca entegre edilebileceğini ve çoklu benchmark testlerinde etkili sonuçlar verdiğini bildiriyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka E-Spor Videoları Analiz Etmeyi Öğreniyor: EgoEsportsQA Benchmark'ı

Araştırmacılar, video analizi yapabilen büyük dil modellerinin (Video-LLM) e-spor ortamlarındaki performansını değerlendirmek için yeni bir test sistemi geliştirdi. EgoEsportsQA adı verilen bu sistem, profesyonel e-spor maçlarından 1.745 soru-cevap çifti içeriyor. Mevcut yapay zeka modelleri günlük yaşam videolarında başarılı olsa da, hızlı tempolu e-spor ortamlarında zorlanıyor. Bu çalışma, yapay zekanın oyun stratejilerini anlama ve hızlı karar verme becerilerini test eden ilk kapsamlı değerlendirme aracını sunuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

ArgBench: Yapay Zeka Modellerinin Tartışma Becerilerini Ölçen İlk Kıyaslama Sistemi

Araştırmacılar, büyük dil modellerinin (LLM) argümantasyon yeteneklerini kapsamlı şekilde değerlendiren ilk standardize kıyaslama sistemini geliştirdi. ArgBench adı verilen bu sistem, 33 farklı veri setini birleştirerek 46 ayrı argümantasyon görevini kapsıyor. Sistem, yapay zeka modellerinin argüman madenciliği, bakış açısı değerlendirmesi, argüman kalitesi analizi, mantıksal çıkarım ve argüman üretimi gibi kritik becerilerdeki performanslarını ölçüyor. Beş farklı model ailesinin test edildiği araştırmada, modellerin örneklerden öğrenme, mantıksal adımlama, boyut ve eğitim becerilerinin tartışma performansına etkisi sistematik olarak analiz edildi. Bu çalışma, yapay zeka modellerinin insan benzeri tartışma yeteneklerini geliştirmek için önemli bir referans noktası oluşturuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modellerinin Zayıf Noktalarını Tespit Eden Yeni Yöntem Geliştirildi

Araştırmacılar, büyük dil modellerinin (LLM) değerlendirilmesinde devrim yaratacak yeni bir metodoloji geliştirdi. QuickScope adlı bu sistem, dinamik test setlerinde yapay zeka modellerinin zorlandığı soruları etkili bir şekilde belirlemeyi amaçlıyor. Geleneksel benchmark testleri sabit soru setleri kullanırken, modern dinamik testler şablon ve parametreler aracılığıyla sınırsız soru varyantları üretebiliyor. Bu esneklik değerli olmakla birlikte, özellikle modellerin zayıf noktalarını güvenilir şekilde tespit etmek söz konusu olduğunda değerlendirme sürecini oldukça maliyetli hale getiriyor. QuickScope, Bayesian optimizasyon algoritması COUP'u temel alarak, pratik LLM işlem hatları için uyarlanmış bir çözüm sunuyor. Bu yenilikçi yaklaşım, AI modellerinin performanslarının daha verimli ve hedefli analizi için önemli bir adım teşkil ediyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modellerinin Dil Anlama Yetisi Test Altında: SemanticQA Benchmark'u

Araştırmacılar, yapay zeka dil modellerinin semantik anlama kapasitesini değerlendirmek için yeni bir test sistemi geliştirdi. SemanticQA adı verilen bu değerlendirme paketi, deyimler, kelime öbekleri ve fiil yapıları gibi karmaşık dil unsurlarını ne kadar iyi anlayabildiğini ölçüyor. Test sonuçları, mevcut AI modellerinin bu konularda önemli performans farklılıkları gösterdiğini ortaya koyuyor. Özellikle anlam çıkarımı gerektiren görevlerde modeller zorlanıyor. Bu bulgular, gelecekte daha güçlü dil anlama yeteneklerine sahip AI sistemleri geliştirmek için önemli ipuçları sunuyor. Benchmark, araştırmacıların kullanımına açık olarak paylaşıldı.

arXiv (Dilbilim & NLP) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Görsel Modelleri Metin Tabelalarına Kandırılabiliyor

Görsel-dil modellerinin (VLM) kritik bir zayıflığı keşfedildi: ekran üzerindeki metinler görsel içerikle çeliştiğinde, bu modeller gerçek görüntüyü görmezden gelip metne öncelik veriyor. Araştırmacılar bu durumu 'Metin Bindirme Kaynaklı Halüsinasyon' olarak tanımladı. 6.057 örnekten oluşan VisualTextTrap adlı kapsamlı test veri seti geliştirilerek, yapay zekanın bu sistematik hatası ölçüldü. Bulgular, günümüz yapay zeka sistemlerinin görsel anlama konusundaki sınırlarını ortaya koyuyor ve gelecek geliştirmeler için kritik bir yol haritası sunuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Öneri Sistemlerinde Yeni Dönem: BLaIR Benchmark'ı Geliştirildi

Araştırmacılar, büyük dil modellerinin öneri sistemlerindeki performansını değerlendirmek için BLaIR adlı kapsamlı bir benchmark geliştirdi. Bu yeni sistem, 570 milyondan fazla Amazon incelemesi ve 48 milyon ürün verisiyle destekleniyor. Geleneksel öneri sistemleri metin tabanlı ürün özelliklerini etkili şekilde kullanmakta zorlanırken, büyük dil modelleri bu alanda umut vaat ediyor. Ancak bu modellerin öneri görevlerindeki davranışları henüz tam olarak anlaşılmamıştı. BLaIR, sıralı öneri, işbirlikçi filtreleme ve ürün araması gibi farklı senaryoları kapsayarak, dil modellerinin semantik kodlayıcı olarak etkinliğini ölçmeyi amaçlıyor. Bu gelişme, e-ticaret platformlarından müzik önerilerine kadar geniş bir kullanım alanında daha akıllı ve kişiselleştirilmiş öneri sistemlerinin geliştirilmesine katkı sağlayabilir.

arXiv (CS + AI) · 24 gün önce

← 1 2 3 4 5 6 … 10 →