“değerlendirme sistemi” için sonuçlar

Teknoloji & Yapay Zeka

21 Apr

3D Sahne Görselleştirmede Geometrik Doğruluğun Yeni Ölçüm Yöntemi

Yapay zeka destekli görselleştirme teknolojileri olan NeRF ve Gaussian Splatting, 3D sahneleri gerçekçi bir şekilde yeniden oluşturabiliyor. Ancak bu yöntemlerin görsel kalitesi yeterli olsa da geometrik doğruluklarını değerlendirmek zorlu bir süreç. Araştırmacılar, bu teknolojilerin yüzey geometrisi açısından ne kadar başarılı olduğunu ölçen yeni bir değerlendirme sistemi geliştirdi. Bu çalışma özellikle robotik uygulamaları için kritik önem taşıyor çünkü nesneleri kavrama ve manipüle etme görevlerinde hassas geometrik bilgi gerekiyor. 19 farklı sahneyi kapsayan kapsamlı bir test seti oluşturan ekip, nöral görselleştirme yöntemlerinin yüzey ve şekil doğruluğunu sistematik olarak analiz edebilen bir araç sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

WebCompass: Web kodlama yapay zekalarını çok boyutlu test eden yeni benchmark

Yapay zeka modelleri artık web sitesi kodlama konusunda oldukça yetenekli hale geldi, ancak mevcut test sistemleri bu yetenekleri tam olarak ölçemiyordu. Araştırmacılar, WebCompass adında yeni bir değerlendirme sistemi geliştirdi. Bu sistem, AI modellerinin web kodlama yeteneklerini metin, görsel ve video girişleriyle test ediyor. Gerçek dünyada web geliştiricilerinin yaptığı gibi, kodları üretme, düzenleme ve onarma becerilerini aynı anda değerlendiriyor. WebCompass, 15 farklı alan, 16 düzenleme türü ve 11 onarım kategorisini kapsıyor. Her görev kolay, orta ve zor seviyelerde sınıflandırılmış. Bu kapsamlı test sistemi, yapay zeka modellerinin web geliştirme alanındaki gerçek performanslarını daha doğru bir şekilde ölçmeyi hedefliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Makine çevirisinde dil ve kültür hatalarını yakalayan yeni değerlendirme sistemi

Araştırmacılar, mevcut makine çevirisi değerlendirme sistemlerinin yetersizliklerini gidermek için LQM (Dilbilimsel Temelli Çok Boyutlu Kalite Metrikleri) adlı yeni bir sistem geliştirdi. Özellikle Arapça gibi farklı lehçelere sahip dillerde, geleneksel değerlendirme yöntemleri dil çeşitliliği, kültürel uygunluk ve pragmatik hatalarını yakalayamıyor. LQM, sosyodilbilim, pragmatik, semantik, morfosentaks, yazım ve grafik olmak üzere altı dilbilimsel seviyede hiyerarşik bir hata sınıflandırması sunuyor. Sistem, yedi farklı Arap lehçesinden 3.850 cümlelik paralel korpus kullanılarak test edildi. Bu gelişme, makine çevirisinin sadece kelime doğruluğunu değil, kültürel ve dilsel nüansları da değerlendirmesine olanak sağlayarak, özellikle çok lehçeli diller için çeviri kalitesinin artırılmasında önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık Pazarda Rekabet Edebiliyor

Araştırmacılar, büyük dil modellerinin ekonomik yeteneklerini test etmek için Market-Bench adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistemde yapay zeka modelleri perakendeci rolünde hareket ederek mal satın alıp satıyor, pazarlama stratejileri geliştiriyor ve bütçelerini yönetiyor. Çok ajantan oluşan tedarik zinciri modelinde AI'lar, sınırlı envanter için açık artırmada teklif veriyor, sonra bu ürünleri müşterilere pazarlıyor. Sistem, yapay zekanın ekonomik karar verme, kaynak yönetimi ve rekabet stratejileri konularındaki yeteneklerini kapsamlı şekilde ölçümlüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Hava Tahminlerini Anlatabilecek mi? Yeni Araştırma Test Ediyor

Görsel-dil modelleri birçok alanda başarılı olmalarına rağmen, meteorolojik verileri yorumlama konusunda ne kadar etkili oldukları bilinmiyordu. Araştırmacılar, bu modellerin hava tahmini verilerini ne kadar doğru anlayıp açıklayabildiğini test etmek için özel bir veri seti ve değerlendirme sistemi geliştirdi. SynopticBench adlı bu sistem, ABD Ulusal Hava Durumu Servisi'nin 1,3 milyondan fazla hava tahmini raporu ile atmosferik görüntüleri eşleştiriyor. Atmosferin kaotik doğası ve sürekli değişimi nedeniyle bu alan yapay zeka için büyük bir meydan okuma teşkil ediyor.

arXiv (Fizik) 0

Teknoloji & Yapay Zeka

21 Apr

AI'ların Matematik Yetenekleri Gerçekten Ne Kadar Güçlü? SMART Testi Şaşırtan Sonuçlar Ortaya Çıkardı

Büyük dil modellerinin matematik problemlerindeki başarıları gerçek akıl yürütmeyi mi yoksa yüzeysel örüntü tanımayı mı yansıtıyor? Bu kritik soruya yanıt aramak için geliştirilen SMART değerlendirme sistemi, matematik problem çözmeyi dört bilişsel boyuta ayırarak 22 gelişmiş AI modelini test etti. Polya'nın problem çözme teorisinden ilham alan sistem, anlam kavrama, matematiksel mantık yürütme, aritmetik hesaplama ve düşünce-geliştirme süreçlerini ayrı ayrı ölçüyor. Sonuçlar, AI'ların matematik performanslarında beklenmedik tutarsızlıklar olduğunu gösteriyor. Bu araştırma, AI'ların matematik yeteneklerini daha derinlemesine anlamamız için önemli ipuçları sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka zaman serisi verilerini açıklamakta zorlanıyor

Araştırmacılar, yapay zeka modellerinin zaman serisi verilerini doğal dille ne kadar iyi açıklayabildiğini ölçen yeni bir değerlendirme sistemi geliştirdi. CaTS-Bench adlı bu sistem, 11 farklı alanda 1746 insan tarafından yazılmış açıklamayı içeriyor. Test sonuçları, en gelişmiş görsel-dil modellerinin bile sayısal verilerdeki trend değişimlerini ve zamansal örüntüleri anlamlı metinlere dönüştürmekte önemli zorluklar yaşadığını ortaya koydu. Bu çalışma, AI'ın veri analizi yeteneklerindeki eksiklikleri gözler önüne sererken, gelecekte daha akıllı veri yorumlama sistemleri geliştirmek için önemli bir referans noktası sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerini Test Eden Yeni Kapsamlı Değerlendirme Sistemi Geliştirildi

Araştırmacılar, yapay zeka modellerinin görsel anlama ve üretme yeteneklerini birlikte değerlendiren Uni-MMMU adlı yeni bir test sistemi geliştirdi. Bu sistem, mevcut değerlendirme yöntemlerinin aksine, AI modellerinin bu iki yeteneği nasıl entegre ettiğini ölçüyor. Bilim, matematik, kodlama ve bulmaca gibi sekiz farklı alanda çift yönlü görevler içeren sistem, modellerin kavramsal anlayışı görsel sentezde nasıl kullandığını ve görsel üretimi analitik düşünce için nasıl araç olarak kullandığını test ediyor. Sistem, doğrulanabilir ara adımlar ve tekrarlanabilir değerlendirme protokolleri sunarak AI araştırmalarında daha güvenilir ölçümler sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Araştırma Yetenekleri İçin Yeni Değerlendirme Sistemi Geliştirildi

Araştırmacılar, yapay zeka sistemlerinin gerçek zamanlı web araştırması yaparak kapsamlı raporlar üretme becerisini ölçmek için LiveResearchBench adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, mevcut değerlendirme yöntemlerinin eksikliklerini gidermek amacıyla tasarlandı. Günlük yaşam, iş dünyası ve akademi alanlarından 100 uzman tarafından seçilmiş görev içeren benchmark, yapay zeka sistemlerinin kullanıcı odaklı, güncel bilgi gerektiren, net tanımlanmış ve çok yönlü araştırma yapabilme kapasitelerini test ediyor. Mevcut sistemler genellikle dar alanlar üzerinde odaklanıyor veya belirsiz sorular soruyor, bu da adil karşılaştırma yapmayı zorlaştırıyor. Yeni sistem, yapay zeka ajanlarının yüzlerce canlı web kaynağından bilgi arayıp sentezleyerek referans destekli kapsamlı raporlar üretme yeteneğini değerlendiriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Ahlak Ölçer: Bengal Kültürü İçin Özel Etik Testi Geliştirildi

Dünya çapında 285 milyondan fazla kişi tarafından konuşulan Bengal dili için özel bir etik değerlendirme sistemi geliştirildi. BengaliMoralBench adlı bu yeni test, büyük dil modellerinin yerel kültürel değerlere ne kadar uygun davrandığını ölçmek için tasarlandı. Araştırmacılar, mevcut etik testlerin çoğunlukla Batı merkezli yaklaşımları yansıttığını ve Güney Asya kültürlerinin özgün değer sistemlerini göz ardı ettiğini belirtiyor. Yeni sistem, günlük aktivitelerden aile ilişkilerine, dini uygulamalardan çocuk yetiştirme anlayışına kadar 50 farklı konu alanını kapsıyor ve her senaryo üç farklı etik bakış açısından değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka görsel üretim modellerini test eden yeni değerlendirme sistemi geliştirildi

Araştırmacılar, metin komutlarından görsel üreten yapay zeka modellerinin performansını daha kapsamlı şekilde değerlendiren DSH-Bench adlı yeni bir test sistemi geliştirdi. Mevcut değerlendirme yöntemleri, çok sınırlı nesne çeşitliliğine sahip olmak ve farklı zorluk seviyelerindeki performansı ayrıntılı analiz edememek gibi önemli eksikliklere sahipti. Bu yeni sistem, 58 farklı kategorideki nesneleri kapsayan hiyerarşik bir sınıflandırma yaklaşımı kullanarak, modellerin güçlü ve zayıf yönlerini daha detaylı ortaya çıkarıyor. Sistem ayrıca farklı zorluk seviyelerinde ve çeşitli senaryo türlerinde model performansını ayrı ayrı değerlendirerek, geliştiricilere modellerini nasıl iyileştirebilecekleri konusunda somut rehberlik sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Sahte Haberlere Karşı Yeni Silah: Zamana Duyarlı Yapay Zeka Test Sistemi

Araştırmacılar, büyük dil modellerinin sahte haber tespitindeki başarısını ölçmek için LiveFact adlı devrim niteliğinde bir değerlendirme sistemi geliştirdi. Geleneksel test yöntemlerinin aksine, bu sistem gerçek zamanlı bilgi akışını simüle ederek yapay zekanın eksik ve sürekli değişen bilgilerle nasıl akıl yürüttüğünü test ediyor. Sistem, 'savaş sisinin' ortasındaki belirsizlikler gibi dinamik koşullarda modellerin performansını değerlendiriyor. 22 farklı büyük dil modeliyle yapılan testlerde, açık kaynaklı Mixture-of-Experts modellerinin dikkat çekici sonuçlar verdiği görüldü. Bu gelişme, dezenformasyon ile mücadelede yapay zekanın etkinliğini artırmaya yönelik önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Robotların Uzun Süreli Görevlerdeki Başarısızlık Nedenleri Araştırıldı

Araştırmacılar, robotik manipülasyon politikalarının neden uzun süreli görevlerde başarısız olduğunu anlamak için LongBench adlı yeni bir değerlendirme sistemi geliştirdi. 1000'den fazla gerçek dünya deneyi içeren bu sistem, robotların zaman içindeki performans düşüşlerinin arkasındaki farklı faktörleri ayrıştırmayı mümkün kılıyor. Çalışma, robotların uzun vadeli görevlerdeki başarısızlıklarının tek bir nedene bağlanamayacağını, bunun yerine çoklu faktörlerin etkili olduğunu ortaya koyuyor. Bu araştırma, gelecekte daha dayanıklı ve tutarlı robot sistemleri geliştirilmesine katkı sağlayabilir.

arXiv (Robotik) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Geometri Problemlerinde Tutarsız Davranıyor

Büyük dil modelleri (LLM'ler) matematik alanında giderek daha fazla test edilse de, aynı problemin farklı sunumlarına karşı ne kadar dayanıklı oldukları belirsizlik taşıyordu. Yeni bir araştırma, geometri problemlerinin Öklid, koordinat veya vektör biçiminde ifade edilmesine göre AI'ların performansının değiştiğini ortaya koydu. Araştırmacılar GeoRepEval adlı yeni bir değerlendirme sistemi geliştirerek, 11 farklı yapay zeka modelini 158 geometri problemi üzerinde test etti. Sonuçlar, mevcut AI modellerinin matematiksel içerik aynı olsa bile problem sunumuna bağlı olarak farklı başarı oranları gösterdiğini kanıtladı. Bu bulgu, AI'ların gerçek matematiksel anlayıştan ziyade belirli sunum formatlarına bağımlı olduğunu düşündürüyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Akıllı evlerde yapay zeka asistanları test edildi: Karmaşık görevlerde başarısızlık

Araştırmacılar, yapay zeka asistanlarının akıllı ev ortamlarında ne kadar etkili çalıştığını test etmek için PersonalHomeBench adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, ev sakinlerinin kişisel tercihlerini ve yaşam tarzlarını dikkate alarak yapay zeka asistanlarının performansını ölçüyor. Test sonuçları, mevcut yapay zeka sistemlerinin basit komutları yerine getirebildiğini ancak karmaşık, bağlam gerektiren görevlerde ciddi zorluklarla karşılaştığını ortaya koydu. Araştırma, yapay zeka asistanlarının gerçek hayatta tam anlamıyla kullanılabilir hale gelmesi için daha fazla gelişime ihtiyaç duyduğunu gösteriyor.

arXiv (Dilbilim & NLP) 0

Tıp & Sağlık

20 Apr

Fetal ultrason görüntüleri için yapay zeka değerlendirme sistemi geliştirildi

Doğum öncesi ultrason taleplerinin artması sonucu dünya genelinde deneyimli ultrasonografi uzmanı sıkıntısı yaşanıyor. Bu soruna çözüm olarak geliştirilen yapay zeka sistemleri, hem uzmanların iş yükünü azaltabilir hem de yeni uzmanlara eğitimde destek sağlayabilir. Özellikle görüntü ve metni birlikte işleyebilen Görü-Dil Modelleri (VLM) bu alanda büyük potansiyel taşıyor. Ancak bu modellerin fetal ultrason görüntülerindeki performansını ölçen standart bir değerlendirme sistemi bulunmuyordu. Araştırmacılar bu eksikliği gidermek için Fetal-Gauge adında ilk ve en kapsamlı değerlendirme sistemini geliştirdi. Bu sistem, yapay zeka modellerinin fetal ultrason görüntülerini ne kadar doğru yorumlayabildiğini test ediyor ve gelecekte bu alanda kullanılacak sistemlerin geliştirilmesine kılavuzluk edecek.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay zeka modellerinin tahmin yetenekleri yeni test yöntemiyle ölçülecek

Araştırmacılar, büyük dil modellerinin sayısal tahmin yapma becerilerini değerlendirmek için QuantSightBench adlı yeni bir test sistemi geliştirdi. Mevcut değerlendirmeler genellikle basit evet-hayır sorularıyla sınırlı kalırken, gerçek hayatta ekonomi, halk sağlığı ve demografik analizler gibi alanlarda sürekli sayısal değerler üzerinden tahminler yapılması gerekiyor. Yeni sistem, yapay zekanın belirsizlik içinde karar verme ve ölçek farkındalığı gibi kritik yeteneklerini test ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Isıtma Sistemlerinde Arıza Tespiti İçin Yapay Zeka Veri Seti Geliştirildi

Araştırmacılar, merkezi ısıtma sistemlerindeki arızaları önceden tespit edebilmek için kapsamlı bir veri seti ve değerlendirme sistemi geliştirdi. 93 farklı alt istasyondan toplanan operasyonel verilerle oluşturulan bu açık kaynak veri seti, enerji verimliliğini artırmak için kritik öneme sahip. EnergyFaultDetector adlı Python tabanlı sistem kullanılarak test edilen framework, arızaları erken tespit ederek sistem performansını optimize etmeyi hedefliyor. Bu çalışma, enerji sistemlerinde yapay zeka destekli bakım yöntemlerinin geliştirilmesi açısından önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Ajanları için Gerçek Dünya Testleri: GTA-2 Benchmark'ı Tanıtıldı

Araştırmacılar, yapay zeka ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için yeni bir test sistemi geliştirdi. GTA-2 adlı bu sistem, basit araç kullanımından karmaşık iş akışlarına kadar geniş bir yelpazede AI ajanlarını test ediyor. Mevcut test sistemlerinin yapay sorgular ve sahte araçlar kullanması sorununun üstesinden gelen bu yenilik, gerçek kullanıcı sorularını ve deployed araçları kullanıyor. Sistem, hem kısa vadeli kesin görevleri hem de uzun vadeli açık uçlu görevleri değerlendiriyor. Özellikle açık uçlu görevler için geliştirilen yeni değerlendirme mekanizması, büyük hedefleri doğrulanabilir alt hedeflere bölerek daha objektif ölçüm yapıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Artık Sorunları Kendiliğinden Fark Edebilir mi?

Araştırmacılar, yapay zekanın profesyonel ortamlarda sorunları kendi başına tanıyabilme yetisini ölçen yeni bir değerlendirme sistemi geliştirdi. KWBench adlı bu sistem, büyük dil modellerinin açık talimat almadan iş dünyasındaki karmaşık durumları anlayıp analiz edebilme kapasitesini test ediyor. Mevcut yapay zeka testleri genellikle belirli görevlerin tamamlanmasına odaklanırken, bu yeni yaklaşım daha temel bir beceriyi ölçüyor: durumun yapısını ham verilerden çıkarabilme. Sistem, satın alma süreçlerinden klinik eczacılığa kadar altı farklı alandan 223 gerçek senaryoyu içeriyor. Her senaryo, oyun teorisi prensipleriyle tasarlanmış ve uzman görüşleriyle desteklenmiş. Bu gelişme, yapay zekanın problem çözme yeteneklerini değerlendirmede yeni bir dönemin başlangıcını işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Doktorları Tanı Koymakta Zorlanıyor: Yeni Test Zayıflıkları Ortaya Çıkardı

Araştırmacılar, tıbbi yapay zeka modellerini test etmek için MEDSYN adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, gerçek hastane koşullarını taklit eden karmaşık vakalarla yapay zekanın tanı koyma becerilerini ölçüyor. Sonuçlar şaşırtıcı: En gelişmiş yapay zeka modelleri bile, farklı türdeki tıbbi kanıtları bir araya getirip doğru tanı koymakta zorlanıyor. Özellikle görüntü analizi yerine sadece hasta hikayesine odaklanma eğilimi gösteriyorlar. Bu bulgular, tıbbi yapay zekanın henüz insan doktorların yerini alamayacağını gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Ajanları Bilimsel Keşiflerde Henüz Yetersiz: Yeni Test Sonuçları

Bilim insanları, yapay zeka ajanlarının gerçek bilimsel araştırmalarda ne kadar etkili olduğunu ölçmek için yeni bir değerlendirme sistemi geliştirdi. COMPOSITE-STEM adlı bu test, fizik, biyoloji, kimya ve matematik alanlarında doktora seviyesinde 70 zorlu görev içeriyor. En gelişmiş yapay zeka modellerinin bile sadece %21 başarı göstermesi, bu teknolojilerin henüz bilimsel keşiflerde sınırlı kaldığını ortaya koyuyor. Araştırma, yapay zeka ajanlarının bilimsel çalışmalarda kullanılmadan önce önemli gelişmelere ihtiyaç duyduğunu gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modelleri Gizlilik Algoritmalarını Ne Kadar İyi Anlıyor?

Araştırmacılar, büyük dil modellerinin diferansiyel gizlilik algoritmalarını ne ölçüde anlayabildiğini test etmek için DPrivBench adlı yeni bir değerlendirme sistemi geliştirdi. Diferansiyel gizlilik, veri setlerinden bilgi çıkarırken bireysel mahremiyeti koruyan matematiksel bir yöntem olmasına rağmen, uygulanması uzman bilgisi gerektiriyor. Çalışma, en güçlü yapay zeka modellerinin bile temel ders kitabı örneklerinde başarılı olurken, karmaşık algoritmalarda ciddi zorlanma yaşadığını ortaya koyuyor. Bu durum, gizlilik koruma alanında yapay zekanın henüz insan uzmanların yerini alamayacağını gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Görsel düzenleme modellerini değerlendirmek için birleşik kıyaslama sistemi

Araştırmacılar, görüntü ve video düzenleme modellerinin performansını ölçmek için UniEditBench adlı kapsamlı bir değerlendirme sistemi geliştirdi. Mevcut kıyaslama yöntemlerinin dağınık yapısı ve farklı paradigmalar arasında adil karşılaştırma yapılamaması sorununa çözüm getiren sistem, dokuz farklı görüntü işlemi ve sekiz video işlemini içeriyor. Sistem, ekleme, çıkarma, değiştirme, sayma ve yeniden sıralama gibi karmaşık görevleri kapsıyor. En önemli yenilik ise büyük multimodal dil modellerinin yüksek maliyetli değerlendirme süreçlerini optimize etmek için damıtma tekniği kullanması. Bu yaklaşım hem hesaplama maliyetlerini düşürüyor hem de insan tercihlerine daha uygun değerlendirmeler yapılmasını sağlıyor.

arXiv (CS + AI) 0