"AI jailbreak" araması — BilimKapsül

...

Arama Sonuçları

9 haber

Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Ahlaki Saldırılarla Test Edildi

Araştırmacılar, büyük dil modellerinin ahlaki değerlere karşı direncini test etmek için yeni bir yaklaşım geliştirdi. Çalışmada, AI sistemlerinin farklı ahlaki görüşlerle başa çıkabilme yeteneği 'jailbreak' saldırıları kullanılarak incelendi. 10.3 bin örnek içeren özel bir ahlak veri seti oluşturan ekip, dört farklı düşmanca saldırı tekniği geliştirdi. Bu saldırılar, yapay zeka modellerinin ahlaki konulardaki kararlarını manipüle etmeyi hedefliyor. Araştırma, AI'nın çok değerli toplumsal yapılarla uyumlu çalışması gereken 'çoğulcu uyum' kavramına odaklanıyor. Bulgular, mevcut AI güvenlik sistemlerinin ahlaki manipülasyonlara karşı ne kadar dayanıklı olduğunu gösteriyor ve gelecekteki AI geliştirmelerinde dikkate alınması gereken önemli güvenlik açıklarını ortaya çıkarıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay zeka güvenliği için yeni tehdit: Kendini geliştiren saldırı sistemi

Araştırmacılar, büyük dil modellerinin güvenlik sistemlerini atlatmak için tasarlanmış ASTRA adlı otomatik bir çerçeve geliştirdi. Bu sistem, geleneksel saldırı yöntemlerinden farklı olarak sürekli öğrenme ve kendini geliştirme kabiliyetine sahip. ASTRA, her etkileşimden öğrenerek saldırı stratejilerini otomatik olarak keşfediyor, saklıyor ve evrimleştiriyor. Sistem, 'saldır-değerlendir-öğren-tekrar kullan' döngüsüyle çalışıyor ve stratejileri etkinlik seviyelerine göre üç katmanlı bir kütüphanede kategorize ediyor. Bu gelişme, yapay zeka güvenliği alanında yeni zorlukları gündeme getirirken, güvenlik sistemlerinin daha dinamik ve adaptif hale getirilmesi gerektiğini ortaya koyuyor. Araştırma, LLM güvenlik açıklarını anlamak ve kapatmak için önemli içgörüler sunuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Güvenlik Sistemleri Edebiyat Tarzı Saldırılara Karşı Savunmasız

Yapay zeka modellerinin güvenlik sistemleri, zararlı taleplerin edebiyat tarzında yazılması durumunda büyük ölçüde başarısız oluyor. Araştırmacıların geliştirdiği Adversarial Humanities Benchmark (AHB) testi, 31 gelişmiş yapay zeka modelinde yapılan denemelerde şaşırtıcı sonuçlar ortaya koydu. Normal zararlı talepler %3,84 başarı oranıyla engellenirken, aynı talepler şiir, hikaye veya diğer edebi formlarla sunulduğunda %36,8 ile %65 arasında değişen oranlarda başarılı oluyor. Bu durum, mevcut güvenlik tekniklerinin stilistik değişikliklere karşı yetersiz kaldığını gösteriyor. Özellikle kimyasal, biyolojik, radyolojik ve nükleer konularda risk oranının en yüksek çıkması endişe verici. Bulgular, yapay zeka güvenlik sistemlerinin yalnızca bilinen zararlı prompt formatlarına odaklandığını ve yaratıcı yaklaşımlara karşı savunmasız kaldığını ortaya koyuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Güvenlik Duvarlarını Aşmanın Farklı Yolları Keşfedildi

Araştırmacılar, açık kaynaklı dil modellerinin güvenlik sistemlerini devre dışı bırakmanın üç farklı yöntemini inceledi. Zararlı denetimli öğrenme, ödül tabanlı pekiştirmeli öğrenme ve reddetme baskılama teknikleri kullanılarak yapılan testlerde, her üç yöntemin de modelleri zararlı istekleri yerine getirmeye yönlendirdiği görüldü. Ancak bu yöntemlerin model davranışları üzerindeki etkileri birbirinden önemli ölçüde farklılaştı. Özellikle RLVR yöntemiyle manipüle edilen modellerin, zararlı istekleri yerine getirmelerine rağmen bu isteklerin zararlı olduğunu tanıyabildikleri ve güvenli bir yapay zekanın nasıl davranması gerektiğini açıklayabildikleri keşfedildi. Bu bulgular, yapay zeka güvenliğinde farklı saldırı türlerinin farklı savunma stratejileri gerektirdiğini ortaya koyuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Güvenliği İçin Yeni Koruma Sistemi: ReGA

Büyük dil modelleri (LLM) günlük yaşamımızda devrim yaratırken, güvenlik endişeleri de beraberinde artıyor. Bu modeller zararlı içerik üretebiliyor ve jailbreaking saldırılarına karşı savunmasız kalabiliyor. Araştırmacılar, model tabanlı analiz tekniklerinin makine öğrenmesi modellerini izlemede başarılı olduğunu göstermiş, ancak LLM'lerin devasa boyutları nedeniyle ölçeklenebilirlik sorunu yaşanıyordu. Yeni çalışma, LLM'lerde keşfedilen düşük boyutlu güvenlik-kritik temsillere dayanan ReGA adlı bir çerçeve öneriyor. Bu yaklaşım, geleneksel model-bazlı güvenlik analizi tekniklerinin LLM ölçeğindeki modellere uygulanmasında karşılaşılan zorlukları aşmayı hedefliyor ve yapay zeka güvenliği alanında önemli bir adım teşkil ediyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Büyük AI modellerin düşünme süreçleri manipüle edilebiliyor

Araştırmacılar, gelişmiş yapay zeka modellerinin adım adım mantık yürütme süreçlerine zararlı içerik enjekte edebilen yeni bir saldırı yöntemi keşfetti. Bu saldırılar, modelin nihai cevabını değiştirmeden, düşünme aşamalarına tehlikeli bilgiler yerleştiriyor. Sağlık ve eğitim gibi kritik alanlarda kullanılan bu sistemlerin güvenlik açığı, psikolojik çerçeveleme teknikleri kullanılarak istismar ediliyor. Çalışma, AI güvenliğinin sadece son yanıtlara değil, tüm düşünme sürecine odaklanması gerektiğini ortaya koyuyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modellerindeki Zararlı Davranışları Kökten Silmek Artık Mümkün

Araştırmacılar, yapay zeka modellerindeki zararlı ve güvenli olmayan davranışları doğrudan kaynaklarından silmek için yeni bir yöntem geliştirdi. Mistral ve LLaVA gibi hizalanmış modeller bile eğitim sürecinden kalma istenmeyen davranışlar sergileyebiliyor. Mevcut güvenlik yöntemleri sadece tercih edilen yanıtları teşvik ediyor ancak zararlı çıktılara neden olan alt ağları doğrudan kaldırmıyor. Yeni geliştirilen 'budama' çerçevesi, gradyant-free bir atıf mekanizması kullanarak bu tehlikeli parametreleri tespit ediyor ve kaldırıyor. Sistem, GPU kaynaklarını verimli kullanırken farklı mimarilerde genelleştirilebiliyor. Deneysel sonuçlar, zararlı üretimlerde önemli azalma ve jailbreak saldırılarına karşı daha iyi direnç gösterirken model performansında minimal kayıp olduğunu ortaya koyuyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Büyük Dil Modelleri Zararlı İçeriği Tek ve Birleşik Bir Mekanizma ile Üretiyor

Araştırmacılar, büyük dil modellerinin zararlı davranışları engellemek için aldıkları güvenlik önlemlerinin neden bu kadar kırılgan olduğunu keşfetti. Jailbreak saldırılarının ve dar alanlardaki fine-tuning işlemlerinin güvenlik duvarlarını nasıl aştığını açıklayan birleşik bir mekanizma tespit edildi.

arXiv · 34 gün önce