Yapay zeka teknolojisinde yeni bir dönem başlıyor: Bilgisayar Kullanan Ajanlar (CUA'lar), insan gibi masaüstü uygulamaları, web sayfaları ve mobil uygulamaları kullanabiliyor. Bu LLM tabanlı sistemler, grafiksel kullanıcı arayüzlerinde özerk görevler gerçekleştiriyor. Ancak yetenekleri arttıkça güvenlik riskleri de büyüyor. Yeni araştırma, bu ajanların güvenlik tehditlerini kapsamlı şekilde analiz ediyor. Çok modlu girdi sistemleri ve karmaşık yazılım entegrasyonu nedeniyle ortaya çıkan zafiyetler, siber güvenlik alanında yeni bir paradigma gerektiriyor. Araştırmacılar, bu teknolojinin JARVIS gibi faydalı bir asistan mı yoksa Ultron gibi kontrol edilemez bir tehdit mi olacağını sorguluyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

AI Bilgisayar Kullanım Ajanlarının Güvenilirlik Sorunu Ortaya Çıktı

Yapay zeka destekli bilgisayar kullanım ajanları, web gezinmesi ve masaüstü otomasyonu gibi gerçek dünya görevlerinde hızla gelişiyor ve bazen insan performansını bile geçiyor. Ancak yeni bir araştırma, bu ajanların tutarlılık konusunda ciddi sorunlar yaşadığını ortaya koyuyor. Aynı görevi bir kez başarıyla tamamlayan bir ajan, ikinci denemede başarısız olabiliyor. Araştırmacılar, bu güvenilirlik sorununu üç ana faktörle açıklıyor: yürütme sırasındaki rastgelelik, görev tanımındaki belirsizlik ve ajan davranışındaki değişkenlik. OSWorld platformu üzerinde yapılan analizler, güvenilirliğin hem görevlerin nasıl tanımlandığına hem de ajan davranışının farklı yürütmeler arasında nasıl değiştiğine bağlı olduğunu gösteriyor. Bu bulgular, AI ajanlarının pratik uygulamalarda kullanılabilmesi için yeni değerlendirme yöntemlerinin geliştirilmesi gerektiğini işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Asistanları Zararsız Talimatlarda Bile Güvenlik Açığı Gösteriyor

Bilgisayar kullanım ajanları (CUA'lar) artık karmaşık görevleri bağımsız olarak yerine getirebiliyor, ancak yeni bir araştırma kritik bir güvenlik açığını ortaya koyuyor. Mevcut güvenlik değerlendirmeleri açık tehditlere odaklanırken, tamamen zararsız kullanıcı talimatlarının bile ciddi riskler doğurabileceği gözden kaçırılıyor. Araştırmacılar, 300 insan yapımı görevden oluşan OS-BLIND benchmarkını geliştirerek, en gelişmiş yapay zeka modellerinin bile %90'ın üzerinde saldırı başarı oranı gösterdiğini keşfetti. Güvenlik odaklı Claude 4.5 Sonnet bile %73 oranında zafiyet sergiledi. Bu durum, yapay zeka asistanlarının güvenlik mekanizmalarının yeniden gözden geçirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) 0