"ajan değerlendirme" araması

Arama Sonuçları

676 haber

Yapay Sinir Ağlarında Seçici Ölçüm Devrim Yaratıyor

Araştırmacılar, yapay zeka eğitiminde kullanılan Forward-Forward algoritmasını önemli ölçüde geliştiren yeni bir yaklaşım keşfetti. Geleneksel yöntemlerin aksine, tüm nöronları değerlendirmek yerine sadece en aktif olanları seçen 'top-k iyilik' fonksiyonu, Fashion-MNIST veri setinde %22,6 oranında daha yüksek doğruluk sağladı. Bu yenilikçi yaklaşım, beynin çalışma mantığına daha yakın olan Forward-Forward algoritmasının performansını dramatik şekilde artırarak, yapay zeka eğitiminde yeni ufuklar açıyor. Çalışma, hangi nöron aktivasyonlarının ölçülmesi ve nasıl bir araya getirilmesi gerektiği konusunda sistematik bir analiz sunuyor.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Kodlama Ajanları İş Dünyasında Ne Kadar Başarılı? Yeni Araştırma Sınırları Ortaya Koydu

Yapay zeka destekli kodlama ajanları yazılım geliştirme alanında hızla yaygınlaşırken, kullanıcılar bu teknolojileri genel iş süreçlerinde de kullanmaya başladı. Yeni bir araştırma, kodlama ajanlarının yazılım mühendisliği dışındaki alanlarda ne kadar etkili olduğunu inceledi. Araştırmacılar, mevcut değerlendirme yöntemlerindeki eksiklikleri tespit ederek, Enterprise Resource Planning (ERP) sistemi üzerinde pratik iş görevlerini test ettiler. Sonuçlar, bu ajanların basit görevleri güvenilir şekilde tamamlayabildiğini ancak karmaşık işlerde karakteristik hatalar yaptığını gösterdi. Bu durum, alan bilgisi ile kod çalıştırma arasındaki köprünün kurulmasının, bu teknolojinin genelleştirilebilirliği için kritik bir darboğaz olduğunu ortaya koyuyor.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Dronelar için Hafif Görüntü Kalitesi Değerlendirme Sistemi Geliştirildi

Araştırmacılar, insansız hava araçları (drone) ile çekilen görüntülerin kalitesini otomatik olarak değerlendiren yeni bir sistem geliştirdi. MM-IQA adı verilen bu framework, bulanıklık, kenar yapısı, düşük çözünürlük, pozlama dengesizliği, gürültü ve sis gibi çoklu metrikleri kullanarak 0-100 arasında kalite puanı veriyor. Özellikle referans görüntünün bulunmadığı durumlarda çalışabilen bu hafif sistem, büyük hacimli görüntü setlerinin otomatik filtrelenmesinde kritik öneme sahip. Beş farklı veri setinde yapılan testlerde 0.647 ile 0.830 arasında korelasyon değerleri elde eden sistem, tarımsal uygulamalar başta olmak üzere drone görüntülemesinin yaygın olduğu alanlarda verimlilik sağlayacak.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay zeka ajanları artık kendi yazdıkları kodları test edebiliyor

Araştırmacılar, büyük dil modellerinin kod yazabildiği ama doğruluğunu kontrol edemediği sorununa çözüm getiren AgentForge adlı sistemi geliştirdi. Bu yenilikçi çerçeve, beş farklı AI ajanının koordineli çalışmasıyla yazılım geliştirme sürecini otomatikleştiriyor. Planlayıcı, kodlayıcı, test edici, hata ayıklayıcı ve eleştiri ajanlarından oluşan ekip, her kod değişikliğini güvenli bir test ortamında çalıştırarak doğruluğunu kontrol ediyor. Sistem, yazılım mühendisliğini iteratif bir karar süreci olarak modelleyerek, geleneksel token tabanlı yaklaşımlar yerine gerçek çalıştırma geri bildirimini kullanıyor. SWE-BENCH Lite test setinde %40 başarı oranına ulaşan AgentForge, tek ajan sistemlerinden 26-28 puan daha iyi performans gösteriyor. Bu gelişme, AI destekli yazılım geliştirmede önemli bir adım teşkil ediyor.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay Veri Üreticileri Dolandırıcılık Kalıplarını Taklit Etmekte Başarısız

Araştırmacılar, yapay zeki sistemlerin ürettiği sentetik verilerin gerçek dolandırıcılık davranışlarını yansıtmadığını ortaya koydu. Çalışma, mevcut yapay veri üreticilerinin istatistiksel özellikleri koruyabildiğini ancak dolandırıcıların karakteristik davranış kalıplarını yakalayamadığını gösteriyor. Bu durum, finansal güvenlik sistemlerinin geliştirilmesinde ciddi bir engel oluşturuyor. Araştırma ekibi, davranışsal sadakat adını verdikleri yeni bir değerlendirme boyutu tanımlayarak, yapay verilerin gerçek dünyadaki varlık aktivitelerinin zamansal ve yapısal kalıplarını ne ölçüde koruduğunu ölçmeyi hedefliyor.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Sistemler İçin Sorumluluk Paylaşımı Modeli Geliştirildi

Araştırmacılar, çoklu ajan sistemlerinde sorumluluk dağılımının nasıl yapılacağını öğrenen yeni bir yapay zeka modeli geliştirdi. İnsanların etkileşimli ortamlarda kendi hedeflerinden ne kadar taviz vererek başkalarına uyum sağladığını anlayan bu sistem, sosyal olarak uyumlu ve güvenilir otonom teknolojiler tasarlamak için kritik bir adım. Model, belirsizlikleri de hesaba katarak farklı senaryolarda sorumluluk paylaşımının nasıl gerçekleştiğini öğreniyor. Bu yaklaşım, özellikle güvenliğin kritik olduğu durumları dikkate alarak, yapay zeka sistemlerinin insan davranışlarını daha iyi anlamasını sağlıyor.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Ajanlarının Keşif ve Kullanma Hatalarını Ölçen Yeni Yöntem

Araştırmacılar, dil modeli tabanlı yapay zeka ajanlarının karar verme süreçlerindeki keşif ve kullanma hatalarını sistematik olarak ölçebilen yeni bir değerlendirme yöntemi geliştirdi. Çalışma, AI kodlama ve fiziksel yapay zeka gibi karmaşık görevlerde kullanılan ajanların, problem alanını keşfetme ve edinilen bilgiyi kullanma yeteneklerini analiz ediyor. Araştırma ekibi, gerçek dünya senaryolarından ilham alan kontrollü ortamlar tasarlayarak, ajanların iç politikalarına erişim olmadan sadece gözlemlenen eylemlerden keşif ve kullanma hatalarını ayırt edip ölçmeyi başardı. Bu yenilikçi yaklaşım, en gelişmiş dil modeli ajanlarının bile bu kritik alanlarda önemli zorluklarla karşılaştığını ortaya koyuyor.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Öğrenmesinde Yeni Yaklaşım: Örtük Ödül Modellerinin Güvenilirliği Artırıldı

Araştırmacılar, yapay zekanın mantıksal çıkarım süreçlerini değerlendiren ödül modellerindeki temel bir sorunu çözdü. Geleneksel yöntemler, AI'nin her adımını ayrı ayrı puanlarken tutarsızlıklar yaşıyordu - eğitim sırasında sadece genel sonucu gözetirken, kullanım sırasında her adımı tek tek değerlendirmek zorundaydı. Bu durum, modelin hangi mantık adımlarının doğru olduğunu güvenilir şekilde belirleyememesine neden oluyordu. Yeni geliştirilen 'Örtük Önek-Değer Ödül Modeli' bu sorunu çözerek, AI sistemlerinin daha tutarlı ve güvenilir şekilde öğrenmesini sağlıyor. Bu gelişme, özellikle karmaşık problem çözme gerektiren AI uygulamaları için önemli bir adım.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka İçin Sonsuz Bilimsel Test Alanı Geliştirildi

Araştırmacılar, büyük dil modellerinin bilimsel verileri analiz etme yeteneklerini değerlendirmek için yenilikçi bir sistem geliştirdi. InfiniteScienceGym adlı bu platform, gerçek bilimsel çalışmalardaki önyargı ve sınırlamaları ortadan kaldırarak sonsuz sayıda test senaryosu üretebiliyor. Sistem, algoritmaların bilimsel veri analizi, kanıt tabanlı muhakeme ve araç kullanımı becerilerini kontrollü bir ortamda test etmeyi mümkün kılıyor. Bu yaklaşım, yapay zekanın bilimsel asistan rolündeki performansını daha objektif şekilde ölçmek için kritik bir adım teşkil ediyor.

arXiv (CS + AI) · 29 gün önce

Tıp & Sağlık

Yapay Zeka Tüp Bebek Başarısını Artırabilir: Embriyo Kalitesi Otomatik Değerlendirmesi

Araştırmacılar, tüp bebek tedavilerinde embriyo kalitesini otomatik olarak değerlendiren yeni bir yapay zeka sistemi geliştirdi. Mevcut yöntemler embriyologların görsel değerlendirmelerine dayanıyor ve bu durum subjektiflik ile uzmanlar arası farklılıklara yol açıyor. Yeni sistem, 5. gün insan embriyolarının görüntülerini analiz ederek kritik embriyo bileşenlerini otomatik olarak tanımlıyor ve derecelendiriyor. Multitask embedding yaklaşımı kullanan bu teknoloji, sınırlı veri setinden bile etkili öğrenme gerçekleştirebiliyor. Sistem özellikle trofektoderm, iç hücre kütlesi ve blastosist genişlemesi gibi görsel olarak benzer ve ayırt edilmesi zor yapıları başarıyla tanımlayabiliyor. Bu gelişme, tüp bebek tedavilerinin başarı oranını artırabilir ve standardizasyon sorunlarını çözebilir.

arXiv (CS + AI) · 29 gün önce

Teknoloji & Yapay Zeka

Yapay zeka dilbilim testinin ciddi eksikleri ortaya çıkarıldı

Araştırmacılar, dilsel anlam değişimini tespit etmede kullanılan en etkili kıyaslama testlerinden SemEval-2020 Task 1'in temel sorunlarını analiz etti. Çalışma, testin kelimelerin anlam değişimini yalnızca ayrı anlamların kazanılması, kaybedilmesi veya yeniden dağıtılması olarak ele aldığını gösteriyor. Bu yaklaşım, dilin doğasında var olan kademeli, yapısal ve bağlamsal değişimleri yakalayamıyor. Ayrıca veri kalitesi incelemesinde OCR hataları, bozuk karakterler, kesik cümleler ve tutarsız dilbilgisel etiketleme gibi ciddi teknik problemler tespit edildi. Bu bulgular, yapay zeka sistemlerinin dil anlama kapasitelerini değerlendirmede kullanılan temel araçların ne kadar güvenilir olduğu sorusunu gündeme getiriyor.

arXiv (CS + AI) · 29 gün önce

← 1 … 53 54 55 56 57 →