"ajan değerlendirme" araması

Arama Sonuçları

676 haber

Yapay Zeka X-Işını Spektroskopi Analizini Otomatikleştiriyor

Araştırmacılar, X-ışını absorpsiyon spektroskopisi (XANES) analizini büyük dil modelleri kullanarak otomatikleştiren ChemGraph-XANES adlı yeni bir framework geliştirdi. Bu sistem, karmaşık kimyasal yapıların elektronik özelliklerini incelemek için kullanılan XANES simülasyonlarını doğal dille komutlandırılabilen ajanlar aracılığıyla gerçekleştiriyor. Framework, yapı ediniminden spektral normalizasyona kadar tüm iş akışını otomatikleştirirken, çoklu ajan modunda uzman bir ajan FDMNES kılavuzuna başvurarak parametreleri optimize ediyor. Bu gelişme, malzeme bilimi ve kimya araştırmalarında spektroskopi analizlerinin hızını ve erişilebilirliğini önemli ölçüde artırma potansiyeli taşıyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Destekli Uygulama Geri Dönüşüm Hatasını Büyük Oranda Azaltıyor

Birleşik Krallık'ta yapılan yeni bir araştırma, vatandaşların geri dönüşüm konusundaki karmaşıklığını gidermek için geliştirilen interaktif bir mobil uygulamanın etkinliğini test etti. Çalışma, yerel yönetimlerin farklı geri dönüşüm kurallarının yarattığı karışıklık ve 'istekli geri dönüşüm' (wishcycling) sorununa odaklandı. Araştırmacılar, 50 kişilik anket, uzman görüşmeleri ve tasarım aktivitelerini içeren karma yöntemli bir yaklaşım kullandı. Geliştirilen prototip uygulama, konum bazlı rehberlik, görsel sıralama yardımları ve malzeme özelinde bilgiler sunarak vatandaşların karşılaştığı temel sorunları çözmeyi hedefliyor. Odak grup değerlendirmeleri, uygulamanın geri dönüşüm doğruluğunu önemli ölçüde artırdığını gösterdi.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay zeka görsellerinden istenmeyen içerik silmek için yeni yöntem geliştirildi

Metinden görsel üreten yapay zeka modelleri bazen zararlı veya istenmeyen içerik üretebiliyor. Araştırmacılar, bu modelllerden belirli kavramları hassas bir şekilde silmek için TICoE adlı yeni bir sistem geliştirdi. Bu sistem metin ve görsel verilerini birlikte kullanarak, istenmeyen kavramları silerken diğer içerikleri korumayı başarıyor. Geleneksel yöntemler ya kavramları tam olarak silemiyordu ya da ilgisiz içerikleri de zarar veriyordu. TICoE, sürekli dışbükey kavram manifoldu ve hiyerarşik görsel öğrenme kullanarak bu sorunu çözüyor. Sistem, hedef kavramları hassas bir şekilde kaldırırken, ilgisiz anlamsal ve görsel içerikleri koruyor. Araştırmacılar ayrıca silme işleminin kalitesini değerlendirmek için yeni bir strateji de geliştirdi. Yapılan deneyler, TICoE'nin önceki yöntemlerden daha başarılı olduğunu gösteriyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Ajanları Bilimsel Keşiflerde Henüz Yetersiz: Yeni Test Sonuçları

Bilim insanları, yapay zeka ajanlarının gerçek bilimsel araştırmalarda ne kadar etkili olduğunu ölçmek için yeni bir değerlendirme sistemi geliştirdi. COMPOSITE-STEM adlı bu test, fizik, biyoloji, kimya ve matematik alanlarında doktora seviyesinde 70 zorlu görev içeriyor. En gelişmiş yapay zeka modellerinin bile sadece %21 başarı göstermesi, bu teknolojilerin henüz bilimsel keşiflerde sınırlı kaldığını ortaya koyuyor. Araştırma, yapay zeka ajanlarının bilimsel çalışmalarda kullanılmadan önce önemli gelişmelere ihtiyaç duyduğunu gösteriyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay zeka ile yazılım testlerini otomatikleştiren yeni sistem geliştirildi

Yazılım geliştirmede en zorlu aşamalardan biri olan test sürecini devrim niteliğinde değiştiren yeni bir sistem geliştirildi. MR-Coupler adlı bu sistem, büyük dil modellerini kullanarak yazılım kodlarındaki fonksiyonel bağlantıları analiz ediyor ve otomatik olarak test senaryoları üretiyor. Geleneksel yaklaşımların aksine, sistem uzman bilgisi gerektirmeden kaynak kodda mevcut olan fonksiyonel eşleşmeleri tespit ederek metamorfik test ilişkileri kurabiliyor. 100 insan yazımı test durumu ve 50 gerçek dünya projesi üzerinde yapılan değerlendirmeler, sistemin yanlış alarm oranını önemli ölçüde azalttığını gösteriyor. Bu gelişme, yazılım kalitesini artırırken test süreçlerini hızlandıracak ve yazılım geliştirme maliyetlerini düşürecek potansiyele sahip.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

AI Ajanları Araç Kullanmada Başarılı, Navigasyonda Zayıf

Araştırmacılar, yapay zeka ajanlarının karmaşık görevlerdeki performansını ölçmek için yeni bir benchmark geliştirdi. 'The Amazing Agent Race' adlı bu test, mevcut değerlendirme sistemlerinin çoğunlukla basit, doğrusal görevlerden oluştuğunu ortaya koyuyor. Yeni benchmark, Wikipedia üzerinde gezinme, çoklu araç kullanımı ve sonuçları birleştirme gerektiren 1400 farklı görev içeriyor. Test sonuçları, en başarılı AI ajanının bile sadece %37.2 doğruluk oranına ulaşabildiğini gösteriyor. Özellikle navigasyon hatalarının dominant olduğu (%27-52 arası başarısızlık) bu çalışma, AI ajanlarının araç kullanımında güçlü olmasına rağmen karmaşık ortamlarda yön bulmakta zorlandığını kanıtlıyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay zeka modelleri şekilleri gerçekten anlıyor mu? Yeni test kritik sonuçlar verdi

Görme-dil modelleri (VLM) birçok görevi başarıyla yerine getirse de, bu sistemlerin geometrik şekilleri gerçekten anlayıp anlamadığı belirsizdi. Araştırmacılar, bu modellerin renk ve doku ipuçlarından yararlanarak başarılı görünüp görünmediğini test etmek için BareBones adlı yeni bir değerlendirme sistemi geliştirdi. Bu benchmark, yapay zeka modellerinin saf geometrik anlama yetisini ölçmek için piksel düzeyinde silüetler kullanıyor. Altı farklı veri setinden yararlanılarak oluşturulan bu test, görsel yapay zeka sistemlerinin gerçek geometrik kavrayış kapasitelerini ortaya çıkarmayı hedefliyor. Çalışma, mevcut değerlendirme yöntemlerinin çevresel ipuçlarını sızdırdığını ve bu durumun modellerin gerçek yeteneklerini maskelediğini gösteriyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Artık Matematik Teoremlerini Kendi Başına Keşfedip İspatlayabiliyor

Araştırmacılar, yapay zekanın matematik alanındaki yeteneklerini gerçek koşullarda test eden yeni bir sistem geliştirdi. 'Discover and Prove' adlı bu framework, önceki sistemlerin aksine teoremi önceden bilmeden sorunu çözebiliyor. Sistem, doğal dil kullanarak mantık yürütme ve kendi kendini sorgulama yetenekleriyle önce cevabı buluyor, sonra formal ispat yapıyor. Test sonuçları, sistemin önceki en iyi performansı %40 oranında geçtiğini gösteriyor. Bu gelişme, yapay zekanın matematik ve teorik bilimler alanındaki gerçek potansiyelini değerlendirmek için önemli bir adım.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Asistanları Zararsız Talimatlarda Bile Güvenlik Açığı Gösteriyor

Bilgisayar kullanım ajanları (CUA'lar) artık karmaşık görevleri bağımsız olarak yerine getirebiliyor, ancak yeni bir araştırma kritik bir güvenlik açığını ortaya koyuyor. Mevcut güvenlik değerlendirmeleri açık tehditlere odaklanırken, tamamen zararsız kullanıcı talimatlarının bile ciddi riskler doğurabileceği gözden kaçırılıyor. Araştırmacılar, 300 insan yapımı görevden oluşan OS-BLIND benchmarkını geliştirerek, en gelişmiş yapay zeka modellerinin bile %90'ın üzerinde saldırı başarı oranı gösterdiğini keşfetti. Güvenlik odaklı Claude 4.5 Sonnet bile %73 oranında zafiyet sergiledi. Bu durum, yapay zeka asistanlarının güvenlik mekanizmalarının yeniden gözden geçirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

İrlandaca Konuşma Tanıma İçin İlk Kapsamlı Değerlendirme Platformu Geliştirildi

Araştırmacılar, İrlandaca konuşma tanıma sistemlerini adil ve güvenilir şekilde karşılaştırmak için BlasBench adlı yeni bir değerlendirme platformu geliştirdi. Mevcut çok dilli kıyaslama testleri İrlandacanın kendine özgü dilbilgisel yapısını göz ardı ediyordu. Yeni platform, İrlandacanın fada işaretleri, lenition ve eclipsis gibi özelliklerini koruyan normalleştirici içeriyor. 12 farklı sistem üzerinde yapılan testlerde, Microsoft Azure'un en iyi performansı gösterdiği, OpenAI'ın Whisper modellerinin ise beklenmedik şekilde %100'ün üzerinde hata oranına ulaştığı ortaya çıktı.

arXiv (CS + AI) · 25 gün önce

Biyoloji & Yaşam Bilimleri

Bahçe Kuşlarını Beslerken Hastalık Yayılımını Nasıl Önleriz?

2005 yılında İngiliz bahçelerinde ispinoz türlerinde görülen gizemli ve ölümcül hastalık salgını, doğa koruma uzmanlarını alarma geçirmişti. Araştırmacılar, on yıl sonra bu hastalığın karabaş ve ispinoz türlerindeki yaygınlığını raporladı. Günümüzde ise bilim insanları, bahçelerimizde kuşları besleme alışkanlığının bu canlıların sağlığı ve hayatta kalma şansları üzerindeki etkilerini anlamaya başlıyor. Çalışmalar, yemleme noktalarının hastalık bulaşması için risk oluşturabileceğini gösteriyor. Uzmanlar, kuş severlerin doğru besleme teknikleri uygulayarak hem kuşlara yardım edebileceğini hem de hastalık yayılımını minimize edebileceğini belirtiyor. Bu araştırma, kentsel ekosistemlerde insan-kuş etkileşiminin sonuçlarını değerlendirmek açısından kritik öneme sahip.

Phys.org — Biyoloji · 27 gün önce

← 1 … 50 51 52 53 54 … 57 →