AGIBOT şirketi, yapay zeka modellerinin gerçek dünya görevlerindeki performansını değerlendirmek için 2026 Dünya Yarışması'nı düzenleyeceğini duyurdu. Şirket, endüstrinin simülasyon testlerinden uzaklaşarak gerçek robotlar ve gerçek görevler üzerinde kapalı döngü testlere yöneldiğini belirtiyor. Bu yaklaşım, AI sistemlerinin laboratuvar ortamında değil, gerçek koşullarda ne kadar etkili çalıştığını ölçmeyi hedefliyor. Yarışma, robotik ve yapay zeka alanındaki gelişmelerin pratik uygulamalarını değerlendirmek açısından önem taşıyor.

The Robot Report 0

Biyoloji & Yaşam Bilimleri

1 May

Sanal hücre modelleri gerçek dünya testlerinde yetersiz kalıyor

İlaç keşfi ve kişiselleştirilmiş tıp alanında büyük umut vaat eden sanal hücre modelleri, laboratuvar ortamında etkileyici sonuçlar verse de gerçek dünya koşullarında beklenenden düşük performans sergiliyor. Araştırmacılar, mevcut değerlendirme sistemlerinin çok basitleştirilmiş olduğunu ve biyolojik sistemlerin karmaşıklığını yansıtmadığını tespit etti. Yeni geliştirilen standart test çerçevesi, modellerin görülmemiş hücre türleri, bilinmeyen müdahaleler ve farklı veri setleri arasında genelleme yapma kabiliyetlerini ölçüyor. Sonuçlar, model başarısının büyük ölçüde bağlama bağlı olduğunu ve görev tasarımından güçlü şekilde etkilendiğini gösteriyor. Bu bulgular, sanal hücre teknolojisinin klinik uygulamalara geçmeden önce daha kapsamlı değerlendirmelere ihtiyaç duyduğunu ortaya koyuyor.

arXiv (Biyoloji) 0

Teknoloji & Yapay Zeka

21 Apr

ACE-Router: Yapay Zeka Ajanlarının İnternet Trafiğini Yönetecek Yeni Sistem

Araştırmacılar, yapay zeka ajanlarının oluşturduğu karmaşık ağ sistemlerinde navigasyonu optimize eden ACE-Router adlı yenilikçi bir sistem geliştirdi. Model Context Protocol (MCP) araçlarından yola çıkarak tasarlanan bu sistem, büyük ölçekli ajan ekosistemlerinde hassas yönlendirme yapabilen tarih-farkında yönlendiriciler eğitiyor. Sistem, çok turlu etkileşim senaryolarını sentezleyerek dinamik bağlam anlayışına sahip hafif yönlendirme ajanları oluşturuyor. Gerçek dünya testlerinde üstün performans gösteren ACE-Router, gelecekteki Ajan Web'inin temel özelliklerini sergiliyor: minimal adaptasyonla çoklu ajan işbirliğine genelleme yapabiliyor, gürültüye karşı sağlamlık gösteriyor ve büyük ölçekli sistemlerde etkili çalışıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Robot sürülerinde güvenlik: Seyrek dizilimin yoğun gruptan neden daha güvenli olduğu

MIT araştırmacıları, robot sürülerinin güvenli kontrolü için yenilikçi bir yaklaşım geliştirdi. Fokker-Planck denklemini kullanan bu sistem, robotların uzaysal yoğunluğunu kontrol ederek güvenliği artırıyor. Araştırma, seyrek dizilimli robot gruplarının yoğun gruplardan çok daha güvenli olduğunu matematiksel olarak kanıtlıyor. Geleneksel açık döngü sistemlerinin aksine kapalı döngü çalışan bu yöntem, Voronoi tabanlı varyantı sayesinde dağıtık kullanımlara da olanak sağlıyor. Gerçek dünya testlerinde lokalizasyon ve hareket gürültülerine karşı dayanıklılık gösteren sistem, sürü robotik alanında önemli bir ilerlemeyi temsil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Ajanları için Gerçek Dünya Testleri: GTA-2 Benchmark'ı Tanıtıldı

Araştırmacılar, yapay zeka ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için yeni bir test sistemi geliştirdi. GTA-2 adlı bu sistem, basit araç kullanımından karmaşık iş akışlarına kadar geniş bir yelpazede AI ajanlarını test ediyor. Mevcut test sistemlerinin yapay sorgular ve sahte araçlar kullanması sorununun üstesinden gelen bu yenilik, gerçek kullanıcı sorularını ve deployed araçları kullanıyor. Sistem, hem kısa vadeli kesin görevleri hem de uzun vadeli açık uçlu görevleri değerlendiriyor. Özellikle açık uçlu görevler için geliştirilen yeni değerlendirme mekanizması, büyük hedefleri doğrulanabilir alt hedeflere bölerek daha objektif ölçüm yapıyor.

arXiv (CS + AI) 0