"AI benchmark" araması

Arama Sonuçları

116 haber

Yapay Zeka Artık Kendi Bilgi Haritasını Çiziyor: AutoGraph-R1 Devri

Araştırmacılar, yapay zekanın soru-cevap sistemlerinde kullandığı bilgi graflarını otomatik olarak oluşturabilen AutoGraph-R1 adlı yeni bir framework geliştirdi. Bu sistem, geleneksel yöntemlerin aksine, bilgi graflarını son kullanım amacına göre optimize ediyor. Pekiştirmeli öğrenme tekniklerini kullanan AutoGraph-R1, büyük dil modellerini eğiterek grafik oluşturma sürecini bir politika öğrenme problemi olarak ele alıyor. Sistem, grafiğin işlevsel faydasına göre ödül alarak kendini geliştiriyor ve farklı soru-cevap benchmark'larında önemli performans artışları sağlıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Emlak sektöründe yapay zeka: Yeni benchmark karmaşık sorulara çözüm arıyor

Araştırmacılar, emlak sektöründeki karmaşık soruları yanıtlayabilen yapay zeka sistemleri için ReCoQA adlı yeni bir benchmark geliştirdi. Bu sistem, veritabanı sorguları ve dış API'ları birleştirerek çok adımlı mantıksal çıkarımlar yapabiliyor. 29.270 emlak örneği içeren bu benchmark, yapay zeka ajanlarının parçalı bilgi kaynaklarını nasıl birleştireceğini test ediyor. Geliştirilen HIRE-Agent sistemi, hiyerarşik bir yapıyla çalışarak önce soruyu anlıyor, sonra plan yapıyor ve son olarak bu planı uyguluyor. Bu çalışma, gerçek dünya problemlerinde yapay zekanın karar verme süreçlerini iyileştirmek için önemli bir adım teşkil ediyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Artık Hiç Görmediği Hareketleri de Tanıyabiliyor

Araştırmacılar, yapay zekanın daha önce hiç öğrenmediği video hareketlerini tanıyabilmesi için yenilikçi bir yöntem geliştirdi. CLIP modelini geliştiren bu sistem, hareket duyarlı ve statik görsel özellikleri birbirinden ayırarak, pozitif ve negatif metin ipuçlarıyla semantik hizalama yapıyor. Motion Separation Module ile hareketleri analiz eden sistem, gated cross-attention mekanizmasıyla gereksiz bilgileri filtreleyerek hareket temsilini iyileştiriyor. Standart benchmark testlerinde önceki CLIP tabanlı yaklaşımlardan daha başarılı sonuçlar elde eden bu yöntem, hem genel hem de detaylı hareket kategorilerinde güçlü sıfır-atışlı tanıma performansı sergiliyor. Bu gelişme, güvenlik kameralarından spor analizine kadar birçok alanda kullanılabilecek.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Elektrik şebekelerinin güç akışını yapay zeka ile hızlandırmak için yeni veri seti

Araştırmacılar, elektrik şebekelerindeki güç akışı hesaplamalarını yapay zeka ile optimize etmek için PFΔ adlı kapsamlı bir veri seti geliştirdi. Güç akışı hesaplamaları, elektrik şebekelerinin gerçek zamanlı işletimi için kritik öneme sahip. Özellikle arıza analizlerinde ve şebeke topoloji optimizasyonunda milyonlarca hesaplama yapılması gerekiyor. Geleneksel yöntemler büyük hesaplama gücü gerektirirken, yenilenebilir enerji kaynaklarının artması ve iklim değişikliğinin neden olduğu aşırı hava olayları nedeniyle bu hesaplamaların daha hızlı ve çeşitli senaryolarda yapılması gerekiyor. Makine öğrenimi yöntemleri bu soruna çözüm sunabilir ancak gerçek dünya koşullarını yansıtan benchmarklar eksikti. Yeni veri seti, farklı yük durumları, enerji üretim senaryoları ve şebeke topolojilerini kapsayarak araştırmacılara gerçekçi test ortamı sunuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Artık Bilimsel Keşif Yapabilecek mi? Yeni Test Sistemi Geliştirildi

Araştırmacılar, büyük dil modellerinin bilimsel keşif yapabilme kapasitelerini değerlendirmek için ResearchBench adlı ilk kapsamlı test sistemini geliştirdi. 12 farklı bilim dalından 2024 yılı sonrası yayınları analiz eden sistem, yapay zekanın ilham alma, hipotez kurma ve sıralama yeteneklerini ölçüyor. Bu yenilikçi yaklaşım, bilimsel araştırma sürecini üç temel alt göreve ayırarak, yapay zeka modellerinin gerçek anlamda bilimsel keşfe katkı sağlayıp sağlayamayacağını objektif bir şekilde değerlendirme imkanı sunuyor. Uzmanların doğruladığı otomatik framework, yapay zeka destekli bilimsel araştırmanın geleceği için kritik bir değerlendirme aracı olarak öne çıkıyor.

arXiv (CS + AI) · 24 gün önce

Uzay & Astronomi

Yapay Zeka Hipersonik Araçların Güvenliğini Test Eden Yeni Benchmark Geliştirildi

Araştırmacılar, yapay zeka modellerinin hipersonik araçların termal koruma sistemlerindeki kritik hesaplamaları ne kadar doğru yapabildiğini test eden yeni bir değerlendirme sistemi geliştirdi. TPS-CalcBench adı verilen bu sistem, geleneksel testlerin aksine sadece nihai cevabı değil, mühendislik mantık sürecini de analiz ediyor. Hipersonik araçlarda ısı akısı ve sınır tabaka hesaplamalarındaki hatalar felaketle sonuçlanabilir - bu nedenle AI'ın fiziksel olarak geçersiz ama sayısal olarak makul görünen yanıtlar vermesi, hiç cevap vermemesinden daha tehlikeli. Yeni benchmark, 4 zorluk seviyesi ve 8 kategori içeren kapsamlı bir test paketi sunarak, AI'ın güvenlik açısından kritik havacılık mühendisliğinde kullanılması için gereken sıkı değerlendirme kriterlerini karşılıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Bilgili Ama Akılsız: Eğitimde Başarısız Oluyor

Son araştırmalar, gelişmiş yapay zeka modellerinin standart testlerde yüksek performans göstermesine rağmen, gerçek dünya uygulamalarında beklenmedik şekilde başarısız olduğunu ortaya koyuyor. Özellikle eğitim alanında yapılan kapsamlı değerlendirmede, önde gelen büyük dil modellerinin öğretmen davranışlarını taklit etmekte zorlandığı ve öğrenci öğrenme sonuçlarına olumsuz etki ettiği tespit edildi. Bu durum, AI'ların benchmark testlerdeki başarılarının gerçek hayattaki etkinliklerini garanti etmediğini gösteriyor. Araştırmacılar, farklı modellerin birbirine benzer hatalar yaptığını ve bu ortak önyargıların eğitim kalitesini düşürdüğünü belirtiyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Ajanları İçin Yeni 3D Görsel Arama Testi Geliştirildi

Araştırmacılar, yapay zeka ajanlarının 3D ortamlarda görsel arama yeteneklerini değerlendirmek için E3VS-Bench adlı yeni bir test sistemi geliştirdi. Bu sistem, ajanların farklı açılardan bakarak nesneleri incelemesi, kapların içini görmesi ve açıya bağlı özellikleri ayırt etmesi gibi gerçek dünyada karşılaştığımız karmaşık durumları simüle ediyor. Mevcut testlerin aksine, bu yeni sistem ajanların 5 serbestlik derecesinde hareket ederek bakış açılarını değiştirmesine olanak tanıyor. 3D Gaussian Splatting teknolojisi kullanılarak 99 yüksek kaliteli 3D sahne ve 2.014 soru ile oluşturulan bu test, yapay zeka ajanlarının gerçek dünya koşullarında nasıl performans gösterebileceğini daha doğru bir şekilde ölçmeyi hedefliyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Lüksemburgca için İlk Yapay Zeka Dil Anlama Testi Geliştirildi

Araştırmacılar, Lüksemburgca için ilk kapsamlı doğal dil anlama (NLU) test setini geliştirdi. ltzGLUE adı verilen bu test paketi, İngilizce'deki popüler GLUE testinden esinlenerek hazırlandı. Lüksemburg'un resmi dillerinden biri olan Lüksemburgca, yapay zeka araştırmalarında sıklıkla göz ardı ediliyordu. Yeni geliştirilen test seti, varlık tanıma, konu sınıflandırması ve niyet analizi gibi çeşitli doğal dil işleme görevlerini içeriyor. Araştırmacılar, mevcut dil modellerinin Lüksemburgca'daki performansını değerlendirerek bu alandaki eksiklikleri ortaya koydu. Bu çalışma, küçük diller için yapay zeka teknolojilerinin geliştirilmesinde önemli bir adım teşkil ediyor ve dil çeşitliliğinin korunmasına katkı sağlıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Güvenlik Sistemleri Edebiyat Tarzı Saldırılara Karşı Savunmasız

Yapay zeka modellerinin güvenlik sistemleri, zararlı taleplerin edebiyat tarzında yazılması durumunda büyük ölçüde başarısız oluyor. Araştırmacıların geliştirdiği Adversarial Humanities Benchmark (AHB) testi, 31 gelişmiş yapay zeka modelinde yapılan denemelerde şaşırtıcı sonuçlar ortaya koydu. Normal zararlı talepler %3,84 başarı oranıyla engellenirken, aynı talepler şiir, hikaye veya diğer edebi formlarla sunulduğunda %36,8 ile %65 arasında değişen oranlarda başarılı oluyor. Bu durum, mevcut güvenlik tekniklerinin stilistik değişikliklere karşı yetersiz kaldığını gösteriyor. Özellikle kimyasal, biyolojik, radyolojik ve nükleer konularda risk oranının en yüksek çıkması endişe verici. Bulgular, yapay zeka güvenlik sistemlerinin yalnızca bilinen zararlı prompt formatlarına odaklandığını ve yaratıcı yaklaşımlara karşı savunmasız kaldığını ortaya koyuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Donanım Güvenliğini Nasıl Tehdit Ediyor? HarmChip Benchmark Çalışması

Büyük dil modelleri elektronik tasarım süreçlerine entegre edilirken kritik güvenlik açıkları ortaya çıkarıyor. Araştırmacılar, AI'ların donanım düzeyinde trojan yerleştirme, yan kanal sızıntıları ve fikri mülkiyet hırsızlığı gibi tehditler oluşturabileceğini keşfetti. Bu tehditler özellikle tehlikeli çünkü silikon üretimi sonrası geri döndürülemiyor. Mevcut güvenlik mekanizmaları, meşru mühendislik dili içine gizlenmiş kötü niyetli talepleri tespit edemiyor. Yeni geliştirilen HarmChip benchmark sistemi, 16 donanım güvenliği alanında 120 farklı tehdidi değerlendirerek AI modellerinin bu özel saldırılara karşı dayanıklılığını ölçüyor.

arXiv (CS + AI) · 24 gün önce

← 1 … 4 5 6 7 8 … 10 →