“değerlendirme sistemi” için sonuçlar

Teknoloji & Yapay Zeka

30 Apr

Otonom Araçlar İçin Yeni Güvenlik Çerçevesi: Acil Kaçış Manevraları Test Edildi

Araştırmacılar, otonom araçların tehlikeli durumlardan kaçınmak için yaptığı acil manevralar için kapsamlı bir güvenlik değerlendirme sistemi geliştirdi. Bu yenilikçi çerçeve, tehlike analizi, risk değerlendirmesi ve sistem modellemesini tek bir süreçte birleştirerek otonom araçların güvenliğini artırıyor. T-kavşağı senaryolarında yapılan 1.880 simülasyon testinde, araçların hızı, çarpışma süresi ve yol sürtünmesi gibi kritik parametreler analiz edildi. Bu çalışma, otonom araç teknolojisinin güvenlik standartlarının geliştirilmesinde önemli bir adım teşkil ediyor ve gelecekte daha güvenli sürücüsüz araçlar için temel oluşturuyor.

arXiv — Bilgisayar Sistemleri 0

Uzay & Astronomi

21 Apr

Yapay Zeka Hipersonik Araçların Güvenliğini Test Eden Yeni Benchmark Geliştirildi

Araştırmacılar, yapay zeka modellerinin hipersonik araçların termal koruma sistemlerindeki kritik hesaplamaları ne kadar doğru yapabildiğini test eden yeni bir değerlendirme sistemi geliştirdi. TPS-CalcBench adı verilen bu sistem, geleneksel testlerin aksine sadece nihai cevabı değil, mühendislik mantık sürecini de analiz ediyor. Hipersonik araçlarda ısı akısı ve sınır tabaka hesaplamalarındaki hatalar felaketle sonuçlanabilir - bu nedenle AI'ın fiziksel olarak geçersiz ama sayısal olarak makul görünen yanıtlar vermesi, hiç cevap vermemesinden daha tehlikeli. Yeni benchmark, 4 zorluk seviyesi ve 8 kategori içeren kapsamlı bir test paketi sunarak, AI'ın güvenlik açısından kritik havacılık mühendisliğinde kullanılması için gereken sıkı değerlendirme kriterlerini karşılıyor.

arXiv (CS + AI) 0

Tıp & Sağlık

21 Apr

Yapay Zeka Doktorlara Yaklaştı: Tıp Kılavuzlarında Uzman Seviyesi Test

Araştırmacılar, yapay zekanın tıbbi bilgiyi ne kadar iyi analiz edebildiğini ölçmek için yeni bir test sistemi geliştirdi. MedProbeBench adlı bu sistem, yapay zeka modellerinin gerçek tıp kılavuzlarındaki karmaşık bilgileri uzmanlar gibi değerlendirip değerlendiremediğini test ediyor. Test, binlerce kritere dayalı kapsamlı değerlendirme sistemi kullanarak yapay zekanın tıbbi kanıtları nasıl birleştirdiğini ve sonuçlara nasıl vardığını analiz ediyor. Bu çalışma, yapay zekanın tıp alanındaki uygulamaları için kritik bir değerlendirme aracı sunuyor ve gelecekte AI destekli tıbbi karar verme sistemlerinin geliştirilmesine katkı sağlayabilir.

arXiv (CS + AI) 0

Tıp & Sağlık

21 Apr

Tıbbi Tahmin Modellerinin Farklı Hasta Gruplarında Güvenilirliği Artırıldı

Araştırmacılar, tıbbi prognostik modellerin farklı hasta grupları ve hastaneler arasında daha güvenilir çalışması için yeni stratejiler geliştirdi. Altı farklı cerrahi merkezden toplanan verilerle yapılan çalışmada, mevcut model doğrulama yöntemlerinin eksiklikleri ortaya kondu. Geleneksel yaklaşımda başarılı dış doğrulamanın model genelleştirilebilirliğini garanti etmediği gösterildi. Bunun yerine iki tamamlayıcı yaklaşım önerildi: model geliştiriciler için meta-analiz verilerine dayalı 'ortalamada en iyi' model eğitimi ve son kullanıcılar için kohort uygunluğu değerlendirme sistemi. Bu yenilik, yapay zeka destekli tıbbi karar destek sistemlerinin farklı hasta gruplarında daha güvenilir sonuçlar vermesini sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Video üretiminde yapay zeka hızlanıyor: Yeni spekülatif çözümleme tekniği

Araştırmacılar, otoregressif video üretimi için spekülatif çözümleme adı verilen yeni bir hızlandırma tekniği geliştirdi. SDVG adlı bu sistem, büyük dil modellerinde kullanılan hızlandırma stratejilerini video üretimine uyarlayarak, sürekli görsel verilerle çalışmanın zorluklarını aştı. Geleneksel token doğrulama yerine görüntü kalitesi yönlendiricisi kullanan teknik, video blokları için özel bir değerlendirme sistemi geliştirdi. Bu yenilik, yapay zeka destekli video üretiminin daha hızlı ve verimli hale gelmesini sağlayarak, akış video sentezi alanında önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Telekomünikasyon için Özel AI Değerlendirme Sistemi Geliştirildi

Araştırmacılar, telekomünikasyon sektöründeki yapay zeka uygulamaları için özel olarak tasarlanmış ilk kapsamlı değerlendirme sistemi olan TeleEmbedBench'i geliştirdi. Bu sistem, telekomünikasyon alanındaki yoğun kısaltma kullanımı ve karmaşık standart metinleri nedeniyle genel amaçlı AI modellerinin yetersiz kaldığı durumları ele alıyor. O-RAN Alliance spesifikasyonları, 3GPP belgeleri ve srsRAN açık kaynak kodlarından oluşan üç farklı veri setinde 9.000 soru-metin çifti içeren benchmark, telekomünikasyon şirketlerinin AI sistemlerini daha doğru şekilde değerlendirmesine olanak sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Telefonları Ekran Görüntüsüne Bakmadan da Kullanabilir mi?

Araştırmacılar, büyük dil modellerinin akıllı telefon uygulamalarını ne kadar iyi otomatize edebildiğini test etmek için DailyDroid adlı bir değerlendirme sistemi geliştirdi. 25 farklı Android uygulamasında 75 görevin test edildiği çalışmada, yapay zekanın sadece metin bilgisiyle mi yoksa ekran görüntüleriyle birlikte mi daha başarılı olduğu araştırıldı. GPT-4o ve GPT-4o mini modelleriyle yapılan testlerde, görsel bilginin sadece marginal bir avantaj sağladığı ortaya çıktı. Bu bulgular, yapay zeka asistanlarının telefon kullanımındaki sınırlarını ve gelişim alanlarını gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Raven: Scratch Programları için Video Temelli Otomatik Değerlendirme Sistemi

Araştırmacılar, programlama eğitiminde yaygın kullanılan Scratch için yeni bir otomatik değerlendirme sistemi geliştirdi. Raven adlı bu sistem, geleneksel test tabanlı yöntemler yerine video analizi ve büyük dil modellerini kullanarak Scratch programlarını değerlendiriyor. Sistem, öğretmenlerin manuel inceleme yükünü azaltırken daha tutarlı ve ölçeklenebilir değerlendirme imkanı sunuyor. Scratch programlarının görsel ve etkileşimli doğası nedeniyle zorlu olan otomatik değerlendirme sorununa, programların çalışma videolarını analiz ederek çözüm getiriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Robotlar İçin Yeni Test: Gerçek Hayatta Akıl Yürütebilecek mi?

Araştırmacılar, robotların gerçek dünyada karmaşık görevleri yerine getirebilme kabiliyetlerini test etmek için COIN adında yeni bir değerlendirme sistemi geliştirdi. Bu sistem, robotların dolaptaki bir elmayı almak gibi günlük işlerde nasıl adım adım akıl yürüterek hareket ettiğini ölçüyor. Mevcut test sistemleri, robotların çevreyle sürekli etkileşim halinde uzun vadeli planlar yapabilme yeteneklerini yeterince değerlendiremiyor. COIN benchmark'ı, 50 farklı günlük yaşam görevi içeriyor ve robotların kısmi görüş koşullarında sebep-sonuç ilişkilerini anlayarak hareket edip edemediğini test ediyor. Bu çalışma, gelecekte evlerimizde ve iş yerlerimizde kullanılabilecek akıllı robotların geliştirilmesi için kritik bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Halüsinasyonları İçin Yeni Teşhis Sistemi: PRISM Geliştildi

Büyük dil modelleri karmaşık görevlerde kullanılmaya başlarken, halüsinasyon sorunu kritik hale geliyor. Araştırmacılar, yapay zekanın neden ve nerede hata yaptığını anlamak için PRISM adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, halüsinasyonları dört farklı kategoride inceleyerek - bilgi eksikliği, bilgi hataları, mantık yürütme hataları ve talimat takip hataları - yapay zeka geliştiricilerine detaylı teşhis imkanı sunuyor. 65 farklı görevde 9.448 test örneği içeren PRISM, 24 farklı dil modelini analiz ederek tutarlı zayıflık kalıpları ortaya çıkardı. Bu çalışma, yapay zeka güvenliğinin kritik önem kazandığı dönemde, hataları sadece puanlamaktan ziyade kökenini anlama yaklaşımıyla öne çıkıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Otonom Araçlar İçin Çok Boyutlu Risk Değerlendirme Sistemi Geliştirildi

Otonom sürüş teknolojilerinde güvenliği artırmak için yeni bir risk değerlendirme yöntemi geliştirildi. Araştırmacılar, geleneksel çarpışma zamanı (TTC) hesaplamalarının tek boyutlu yaklaşımının yetersiz kaldığını tespit ederek, 'kaçış ivmesi' adını verdikleri iki boyutlu bir sistem önerdi. Bu yöntem, tüm kaçış yönlerini değerlendirerek çarpışmayı önlemek için gereken minimum ivme vektörünü hesaplıyor. Beş farklı veri seti ve 600'den fazla gerçek kaza verisi kullanılarak test edilen sistem, mevcut yöntemlerden daha erken ve istatistiksel olarak anlamlı uyarılar veriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Ses Modelleri Cinsiyet ve Aksana Dayalı Önyargılar Sergiliyor

Araştırmacılar, günlük uygulamalarda yaygın olarak kullanılan büyük ses-dil modellerinin (LALM) önyargılı davranışlarını inceledi. VIBE adlı yeni değerlendirme sistemi, gerçek insan ses kayıtları kullanarak bu modellerin kişiselleştirilmiş önerilerde nasıl önyargılı sonuçlar ürettiğini ortaya koydu. 11 farklı gelişmiş modelin test edildiği çalışma, özellikle cinsiyet ipuçlarının aksanlardan daha fazla önyargılı davranışa yol açtığını gösterdi. Bu bulgular, yapay zeka sistemlerinin toplumsal kalıp yargıları nasıl yeniden ürettiğine dair önemli ipuçları sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

BranchBench: Yapay Zeka Ajanları İçin Yeni Veritabanı Değerlendirme Sistemi

Araştırmacılar, otonom yapay zeka ajanlarının ihtiyaçları doğrultusunda özel olarak tasarlanmış dallanabilir veritabanlarını değerlendirmek için BranchBench adında yeni bir ölçüt sistemi geliştirdi. Geleneksel veritabanı yönetim sistemleri, yapay zeka ajanlarının spekülatif değişiklikler yapması ve doğrusal olmayan durum keşfi gereksinimleriyle başa çıkmakta yetersiz kalıyor. Bu sistem, yazılım mühendisliği, hata reproduksiyonu, veri küratörlüğü, Monte Carlo ağaç arama ve simülasyon gibi beş farklı yapay zeka iş yükünü karakterize ediyor ve dal-mutasyon-değerlendirme döngülerini yansıtan parametreli makro testler tasarlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Görselleri Yeteri Kadar Analiz Etmiyor

Stanford araştırmacıları, görsel-dil modellerinin beklenenden çok daha fazla metinsel açıklamalara dayandığını ve görsel bilgileri yeterince kullanmadığını keşfetti. Bu durum 'metin kısayolu öğrenmesi' olarak adlandırılıyor. Araştırmacılar, modellerin görsel güvenilirliğini test etmek için çelişkili metin-görsel çiftleri kullanarak yeni bir değerlendirme sistemi geliştirdi. Geometrik şekiller üzerinde yapılan deneyler, standart CLIP modelinin yanıltıcı metinlerle karşılaştığında performansının %27,5 düştüğünü gösterdi. Ancak optimize edilmiş versiyonda bu düşüş %9,8'e kadar azaltıldı. Bu bulgular, yapay zekanın görsel anlama kapasitesini geliştirmek için daha sofistike eğitim yöntemlerine ihtiyaç olduğunu ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Linux Sistemleri İçin Tek Çatıda Güvenlik Değerlendirme Sistemi Geliştirildi

Araştırmacılar, Linux sistemlerinin güvenlik durumunu değerlendirmek için birden fazla güvenlik aracını tek bir çerçevede birleştiren Unified Compliance Aggregator (UCA) sistemini geliştirdiler. Modern bilgisayar sistemlerinin güvenliğini değerlendirmek genellikle farklı alanlarda uzmanlaşmış çok sayıda araç kullanmayı gerektiriyor. Bu araçlar yapılandırma uyumluluğu, dosya bütünlüğü ve güvenlik açığı tespiti gibi farklı konulara odaklanıyor ancak çıktılarını birlikte yorumlamak oldukça zor. Yeni framework, Lynis, OpenSCAP, AIDE, Tripwire ve Nmap NSE gibi açık kaynak güvenlik araçlarının çıktılarını 0-100 ölçeğinde tek bir bileşik puana dönüştürüyor. Sistem ayrıca dosya bütünlüğü ölçümleri için logaritmik puanlama modeli kullanarak önceki doğrusal yaklaşımların sınırlarını aşmayı hedefliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka ajanları artık deneyimlerinden öğrenerek yeni yetenekler geliştirebiliyor

Özerk yapay zeka ajanlarının yetenekleri hızla genişlerken, araştırmacılar bu sistemlerin sadece verilen görevleri yerine getirmekle kalmayıp kendi deneyimlerinden öğrenerek yeni beceriler geliştirebilip geliştiremediğini merak ediyordu. Stanford ve diğer kurumlardan araştırmacılar, bu soruyu yanıtlamak için SkillFlow adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, 20 farklı kategoride 166 görev içeriyor ve yapay zeka ajanlarının yaşam boyu öğrenme yeteneklerini test ediyor. Araştırma sonuçları, mevcut en gelişmiş modellerin bile bu alanda önemli eksiklikleri olduğunu ortaya koydu. Çalışma, yapay zeka ajanlarının gerçek dünyada daha etkili çalışabilmesi için hangi alanlarda gelişim gerektiğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Sesli Asistanlar Artık Kimin Konuştuğunu Daha İyi Ayırt Edebilecek

Araştırmacılar, sesli asistanların en büyük açıklarından birini kapatmak için yeni bir çözüm geliştirdi. Mevcut sistemler, birden fazla kişinin aynı anda konuştuğu ortamlarda hangi sesin asıl kullanıcıya ait olduğunu ayırt etmekte zorlanıyor. Bu durum, yanlış komutların işlenmesine ve güvenlik açıklarına yol açabiliyor. Yeni geliştirilen TPI-Train veri seti ve TPI-Bench değerlendirme sistemi, sesli dil modellerinin üçüncü şahısların müdahalelerini daha iyi tanımasını sağlıyor. Bu çalışma, sesli asistanların günlük hayatta karşılaştığı en yaygın sorunlardan birini çözmeye odaklanıyor ve teknolojinin daha güvenilir hale gelmesine katkı sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Uzun Videolar İçin Yeni Değerlendirme Sistemi: Long-CODE Çerçevesi

Yapay zeka destekli video üretim modelleri giderek daha uzun videolar oluşturabilir hale gelirken, mevcut değerlendirme sistemleri yetersiz kalıyor. Araştırmacılar, geleneksel metriklerin sadece kısa video segmentlerini ve görsel kaliteyi ölçebildiğini, ancak uzun videolardaki anlatı tutarlılığı ve küresel nedensellik gibi kritik özellikleri yakalayamadığını keşfetti. Bu sorunu çözmek için Long-CODE adlı yeni bir değerlendirme çerçevesi geliştirildi. Sistem, kısa vadeli görsel algı ile uzun bağlam özelliklerini birbirinden bağımsız boyutlar olarak ele alarak, uzun video içeriklerinin daha doğru şekilde değerlendirilmesini sağlıyor. Bu gelişme, video yapay zekası alanında önemli bir adım olarak görülüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Kodu Doğrulama Sisteminde Devrim: VeriEquivBench Platformu

Araştırmacılar, büyük dil modellerinin ürettiği kodların doğruluğunu matematiksel olarak kanıtlayabilen yeni bir değerlendirme sistemi geliştirdi. VeriEquivBench adlı bu platform, geleneksel yöntemlerin aksine manuel uzman değerlendirmesi gerektirmeden kod kalitesini ölçebiliyor. 2,389 karmaşık algoritma problemiyle test edilen sistem, mevcut AI modellerinin hem kod yazma hem de mantıksal akıl yürütme konularındaki sınırlarını ortaya çıkarıyor. Bu gelişme, yapay zekanın kritik alanlarda güvenle kullanılması için önemli bir adım sayılıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Çok Dilli Yapay Zeka Modellerinin Diller Arası Bilgi Transferi Test Edildi

Araştırmacılar, büyük dil modellerinin farklı diller arasında bilgiyi ne kadar etkili aktardığını ölçmek için yeni bir değerlendirme sistemi geliştirdi. LiveCLKTBench adlı bu sistem, modellerin gerçekten diller arası bilgi transferi yapıp yapmadığını, yoksa sadece eğitim sırasında öğrendiği bilgileri mi kullandığını ayırt edebiliyor. Beş farklı dilde yapılan testler, diller arasındaki mesafenin bilgi transferini önemli ölçüde etkilediğini ve bu transferin genellikle tek yönlü olduğunu ortaya koydu. Bu araştırma, çok dilli yapay zeka sistemlerinin geliştirilmesi için kritik önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Büyük Dil Modelleri Gerçek Dünya Kodlarını Analiz Etmekte Ne Kadar Başarılı?

Araştırmacılar, yapay zeka sistemlerinin matematik problemlerindeki başarısının gerçek yazılım kodlarını anlama yetisini gösterip göstermediğini test etmek için yeni bir değerlendirme sistemi geliştirdi. Amazon'un kripto kütüphanesi s2n-bignum'dan türetilen bu test, büyük dil modellerinin endüstriyel seviyedeki assembly kodlarını ne kadar iyi analiz edebildiğini ölçüyor. Sistem, matematiksel teoremler yerine gerçek dünyada kullanılan karmaşık yazılımları temel alıyor ve AI'ın pratik programlama görevlerindeki gerçek performansını ortaya çıkarıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Kullanıcı Değişiminin Performansa Etkisi Ölçüldü

Büyük dil modelleri (LLM) gerçek dünyada kullanıldığında, zaman içinde karşılaştıkları kullanıcı istekleri önemli ölçüde değişiyor. Yeni görevler, farklı kullanıcı grupları ve coğrafi farklılıklar, bu modellerin başlangıçta eğitildikleri verilerden uzaklaşmasına neden oluyor. Araştırmacılar, bu doğal değişimlerin yapay zeka performansını nasıl etkilediğini anlamak için LENS adlı yeni bir değerlendirme sistemi geliştirdi. 192 farklı gerçek dünya senaryosunda yapılan kapsamlı analizler, özellikle dar alanlarda uzmanlaşmış modellerin bu değişimlere karşı ne kadar hassas olduğunu ortaya koyuyor. Bu çalışma, yapay zeka sistemlerinin güvenilirliği için kritik öneme sahip ve gelecekte daha dayanıklı modeller geliştirilmesine katkı sağlayacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Kendi Güvenilirliklerini Ne Kadar İyi Tahmin Edebiliyor?

Araştırmacılar, büyük dil modellerinin (LLM) kendi performanslarına olan güven düzeylerinin ne kadar doğru olduğunu ölçen yeni bir değerlendirme sistemi geliştirdi. Yedi farklı aileden 20 en gelişmiş AI modelinin test edildiği çalışmada, modeller güven sinyallerine göre 'Geçerli', 'Belirsiz' ve 'Geçersiz' olmak üzere üç kategoriye ayrıldı. Sonuçlar, güven sinyalleri geçerli olan modellerin seçici tahmin performansında çok daha başarılı olduğunu ortaya koydu. Bu bulgular, AI sistemlerinin hangi sorularda kendilerine güvenebileceklerini belirleme yeteneğinin geliştirilmesi açısından kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AI Terapist Güvenliği için Yeni Değerlendirme Sistemi Geliştirildi

Stanford araştırmacıları, büyük dil modellerinin ruh sağlığı danışmanlığında güvenliğini değerlendirmek için yeni bir sistem geliştirdi. MHSafeEval adlı bu sistem, AI'ların terapist rolündeyken nasıl zararlı davranışlar sergileyebileceğini çok turlu konuşmalarda test ediyor. Mevcut değerlendirme yöntemleri genellikle tek cevaplara odaklanırken, yeni sistem AI'ın hasta ile etkileşim boyunca nasıl zararlı roller üstlenebileceğini inceliyor. R-MHSafe taksonomisi ile AI'ların suçlu, kışkırtıcı, kolaylaştırıcı veya destekleyici roller oynayabileceği belirleniyor. Bu çalışma, ruh sağlığı alanında AI kullanımının güvenlik standartlarının geliştirilmesi açısından kritik öneme sahip.

arXiv (CS + AI) 0