Araştırmacılar, çoklu yapay zeka ajanlarının birlikte çalıştığı sistemlerde hem performansı artıran hem de maliyeti düşüren yenilikçi bir çözüm geliştirdi. Agent Capsules adlı bu sistem, birden fazla AI ajanının görevlerini daha verimli şekilde koordine etmesini sağlıyor. Geleneksel yaklaşımlarda her ajan için ayrı dil modeli çağrısı yapılması hem pahalı hem de yavaş sonuçlar doğuruyordu. Yeni sistem, ajanları akıllıca gruplandırarak token kullanımını azaltırken, kalite kaybını önlemek için sürekli performans kontrolü yapıyor. Sistem, üç farklı strateji arasında seçim yapabiliyor ve kalite düşüşü algıladığında otomatik olarak daha güvenli modlara geçiş yapıyor. Bu gelişme, çoklu AI ajan sistemlerinin daha geniş çapta kullanımına olanak sağlayabilir.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Kendi Güvenilirliklerini Ne Kadar İyi Tahmin Edebiliyor?

Araştırmacılar, büyük dil modellerinin (LLM) kendi performanslarına olan güven düzeylerinin ne kadar doğru olduğunu ölçen yeni bir değerlendirme sistemi geliştirdi. Yedi farklı aileden 20 en gelişmiş AI modelinin test edildiği çalışmada, modeller güven sinyallerine göre 'Geçerli', 'Belirsiz' ve 'Geçersiz' olmak üzere üç kategoriye ayrıldı. Sonuçlar, güven sinyalleri geçerli olan modellerin seçici tahmin performansında çok daha başarılı olduğunu ortaya koydu. Bu bulgular, AI sistemlerinin hangi sorularda kendilerine güvenebileceklerini belirleme yeteneğinin geliştirilmesi açısından kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AI Bilgisayar Kullanım Ajanlarının Güvenilirlik Sorunu Ortaya Çıktı

Yapay zeka destekli bilgisayar kullanım ajanları, web gezinmesi ve masaüstü otomasyonu gibi gerçek dünya görevlerinde hızla gelişiyor ve bazen insan performansını bile geçiyor. Ancak yeni bir araştırma, bu ajanların tutarlılık konusunda ciddi sorunlar yaşadığını ortaya koyuyor. Aynı görevi bir kez başarıyla tamamlayan bir ajan, ikinci denemede başarısız olabiliyor. Araştırmacılar, bu güvenilirlik sorununu üç ana faktörle açıklıyor: yürütme sırasındaki rastgelelik, görev tanımındaki belirsizlik ve ajan davranışındaki değişkenlik. OSWorld platformu üzerinde yapılan analizler, güvenilirliğin hem görevlerin nasıl tanımlandığına hem de ajan davranışının farklı yürütmeler arasında nasıl değiştiğine bağlı olduğunu gösteriyor. Bu bulgular, AI ajanlarının pratik uygulamalarda kullanılabilmesi için yeni değerlendirme yöntemlerinin geliştirilmesi gerektiğini işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AI'da Sosyal Durumları Anlama: CoCoT ile Üç Aşamalı Akıl Yürütme

Yapay zeka modellerinin sosyal durumları anlaması karmaşık bir süreçtir. Görsel ve dilsel bilgileri bir arada işleyerek sosyal normları kavraması gerekir. Araştırmacılar, bu soruna çözüm olarak Cognitive Chain-of-Thought (CoCoT) adında yeni bir yaklaşım geliştirdi. Bu yöntem, AI'nın sosyal durumları üç aşamada analiz etmesini sağlıyor: önce görsel verileri algılama, sonra durumu anlama ve son olarak sosyal normları uygulama. Test sonuçları, bu yaklaşımın sosyal zeka gerektiren görevlerde AI performansını ortalama %5 artırdığını gösteriyor. Bu gelişme, AI'nın insan davranışlarını daha iyi anlamasına ve sosyal etkileşimlerde daha başarılı olmasına katkı sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

AI ajanları için sembolik güvenlik bariyerleri: Daha güvenli, daha etkili yapay zeka

Stanford araştırmacıları, yüksek riskli iş ortamlarında çalışan AI ajanları için yeni bir güvenlik yaklaşımı geliştirdi. Sembolik koruma bariyerleri adı verilen bu sistem, geleneksel eğitim tabanlı güvenlik yöntemlerinin aksine matematiksel garantiler sunuyor. 80 farklı AI güvenlik standardını analiz eden araştırma, mevcut sistemlerin %85'inin somut politika eksikliği yaşadığını ortaya koydu. Yeni yaklaşım, AI ajanlarının çevreleriyle etkileşiminde istenmeyen eylemlerden kaynaklanan gizlilik ihlalleri ve mali kayıpları önlemeyi hedefliyor. Test sonuçları, sembolik bariyerlerin AI performansından ödün vermeden güvenlik garantileri sağladığını gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modelleri Uzun İş Süreçlerinde Belgeleri Bozuyor

Araştırmacılar, büyük dil modellerinin (LLM) iş süreçlerinde yetki devri yapıldığında belgeler üzerindeki performansını test etti. DELEGATE-52 adlı kapsamlı test ile 19 farklı yapay zeka modeli incelendiğinde, en gelişmiş modellerin bile uzun iş akışları sonunda belge içeriğinin ortalama %25'ini bozduğu ortaya çıktı. Kodlama, kristalografi ve müzik notasyonu gibi 52 farklı profesyonel alanda yapılan test, yapay zekanın güvenilir şekilde yetki devri alabilmesi için henüz hazır olmadığını gösteriyor. Bu bulgular, iş dünyasında yapay zekaya olan güven ve beklentilerin yeniden gözden geçirilmesi gerektiğini işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Sistemlerinde Maliyet Odaklı Model Seçimi Geliştiriliyor

Büyük dil modelleri (LLM'ler) karmaşık görevlerde birden fazla AI modelini yönetmek için kullanılıyor, ancak mevcut sistemler model seçiminde yetersiz kalıyor. Araştırmacılar, modellerin gerçek performans özelliklerini dikkate alan yeni bir yaklaşım geliştirdi. Bu yöntem, sadece nitel açıklamalara dayanan geleneksel orkestrasyon sistemlerinin aksine, nicel performans verilerini kullanarak hem doğruluk hem de maliyet dengesini optimize ediyor. Deneysel sonuçlar, önerilen metodun çeşitli değerlendirmelerde doğruluk oranını %0.90 ile %11.92 arasında artırdığını gösteriyor. Bu gelişme, AI sistemlerinin kaynak kullanımını optimize ederken performanslarını da artırmasına olanak sağlıyor.

arXiv (CS + AI) 0