Yapay Zeka Güvenlik Sistemleri Tek Kelimelik Hilelerle Kandırılabiliyor

30 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (Dilbilim & NLP)

Paylaş: Kopyalandı!

Araştırmacılar, büyük dil modellerinin güvenlik sistemlerini atlatmak için yeni bir yöntem geliştirdi. 'Aşamalı Tamamlama Ayrıştırması' adı verilen bu teknik, zararlı içerik üretmekten kaçınacak şekilde eğitilmiş yapay zeka modellerini tek kelime tek kelime kandırarak, sonunda istenmeyen yanıtlar vermesini sağlıyor. Yöntem, modeli önce zararlı bir soruyla ilgili tek kelimeleri tamamlaması için yönlendiriyor, ardından bu kelimeleri birleştirerek tam yanıtı elde ediyor. Çeşitli AI model ailelerinde test edilen teknik, mevcut güvenlik saldırılarından daha başarılı sonuçlar gösterdi. Bu keşif, AI güvenlik sistemlerinin beklenenden daha kırılgan olduğunu ve daha gelişmiş koruma mekanizmalarına ihtiyaç duyulduğunu ortaya koyuyor.

Stanford Üniversitesi araştırmacıları, yapay zeka güvenlik sistemlerini atlatmak için şaşırtıcı derecede basit ama etkili bir yöntem keşfetti. 'Incremental Completion Decomposition' (ICD) adı verilen bu teknik, büyük dil modellerinin güvenlik engellerini tek kelime tek kelime aşarak zararlı içerik üretmesini sağlıyor.

Yöntemin çalışma prensibi oldukça sinsi: Araştırmacılar, AI modelini doğrudan zararlı bir soru sormak yerine, önce bu soruyla ilgili tek kelimeleri tamamlaması için yönlendiriyor. Model her seferinde sadece bir kelime ürettiği için güvenlik sistemleri devreye girmiyor. Ardından bu kelimeleri birleştirerek modelden tam bir zararlı yanıt alınabiliyor.

Araştırma ekibi, bu tekniği AdvBench, JailbreakBench ve StrongREJECT gibi güvenlik test platformlarında denedi. Sonuçlar, ICD yönteminin mevcut saldırı tekniklerinden çok daha başarılı olduğunu gösterdi. Farklı AI model ailelerinde yapılan testlerde, saldırı başarı oranı önemli ölçüde arttı.

Araştırmacılar, bu yöntemin neden bu kadar etkili olduğunun teorik açıklamasını da sunuyor. Bulgularına göre, başarılı saldırı rotaları sistematik olarak modelin reddetme mekanizmalarını baskılıyor. Bu durum, AI güvenlik sistemlerinin bütünlüklü sohbet bağlamında çalıştığını ama parçalı yaklaşımlarda zayıf kaldığını gösteriyor.

Bu keşif, AI güvenliği alanında önemli bir uyarı niteliğinde. Geliştiricilerin, daha sofistike ve çok katmanlı güvenlik mekanizmaları geliştirmesi gerektiğini ortaya koyuyor.

Etiketler

#yapay zeka güvenliği #büyük dil modelleri #siber güvenlik #AI saldırıları #makine öğrenmesi

Özgün Kaynak

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

https://arxiv.org/abs/2604.25921

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.

Her sabah seçki, Telegram'da

Günün en önemli bilim haberleri kanalda.

Kanala Katıl

İlgili Haberler

Aynı kategoride okumaya değer

Hepsini gör →

Teknoloji & Yapay Zeka

6 sa önce

Büyükanne ve Büyükbabaların Geliri Torunların Üniversite Fırsatlarını Etkiliyor

Montreal Üniversitesi'nden araştırmacılar, sadece anne-baba gelirinin değil, büyükanne ve büyukbabaların ekonomik durumunun da torunların yükseköğretime erişiminde belirleyici rol oynadığını ortaya çıkardı. Canadian Studies in Population dergisinde yayınlanan çalışma, çok kuşaklı vergi kayıtlarını analiz ederek bu bağlantıyı kanıtladı. Bulgular, eğitimde fırsat eşitsizliğinin düşünülenden daha derin köklere sahip olduğunu ve kuşaklar arası ekonomik aktarımın gücünü gösteriyor. Bu araştırma, eğitim politikalarının yeniden değerlendirilmesi gerektiğine işaret ediyor.

Phys.org — Sosyal Bilimler Oku

Teknoloji & Yapay Zeka

7 sa önce

Robotlar İnsan Duygularını Okumayı Öğreniyor: Yeni Görsel Dil Modelleri

IEEE araştırmacıları, robotların insan duygularını tanıması için yeni bir yaklaşım geliştirdi. 40 gönüllüyle yapılan deneylerde, robotlar sadece yüz ifadelerini değil, aynı zamanda etkileşimdeki bağlamsal faktörleri de analiz ederek insan duygularını okumayı öğrendi. Çalışma, görsel dil modellerini kullanan işbirlikçi robotların, okuduğu duygulara göre davranışlarını nasıl ayarladığını ve bunun insan-robot işbirliğine etkilerini inceledi. Sonuçlar, robotların duygusal yeteneklerinin insan algısı üzerindeki sınırlı etkisini ortaya koyarak, gelecekteki insan-robot etkileşimi tasarımına önemli katkılar sunuyor.

IEEE Spectrum — Robotics Oku

Teknoloji & Yapay Zeka

7 sa önce

Edge AI Robotları Herkese Açıyor: Windows Etkisi Tekrarlanıyor

Tıpkı Windows işletim sisteminin bilgisayarları sadece mühendis ve bilgisayar bilimcilerinden alıp sıradan kullanıcılara ulaştırması gibi, Edge AI teknolojisi de robotik alanında benzer bir dönüşüm yaratıyor. Geleneksel robotik sistemler karmaşık programlama bilgisi gerektirirken, Edge AI sayesinde robotlar artık çok daha erişilebilir hale geliyor. Bu teknoloji, yapay zeka işlemlerini bulut yerine doğrudan cihazda gerçekleştirerek, robotların daha hızlı karar almasını ve internet bağlantısına daha az bağımlı çalışmasını sağlıyor. Robotik sektörü için bu gelişme, teknolojinin demokratikleşmesi anlamına geliyor ve farklı sektörlerden daha fazla kullanıcının robotic çözümlerden faydalanabileceği bir dönemin kapılarını açıyor.

The Robot Report Oku