Araştırmacılar, büyük dil modellerine yönelik gelişmiş siber saldırılara karşı TwinGate adlı yenilikçi bir savunma sistemi geliştirdi. Bu sistem, kötü niyetli kullanıcıların zararsız görünen sorular dizisi halinde gizledikleri tehlikeli talepleri tespit edebiliyor. TwinGate, asimetrik kontrastif öğrenme tekniğini kullanarak, anlam bakımından farklı ama aynı kötü amaca hizmet eden sorguları kümeleyebiliyor. Sistem, kullanıcı kimliklerinin anonim olduğu ve sürekli sorgular geldiği gerçek dünya koşullarında bile etkili çalışıyor. Mevcut savunma yöntemlerinin aksine, TwinGate hesaplama maliyeti düşük bir çözüm sunarak yapay zeka güvenliği alanında önemli bir adım atıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka güvenliği için yeni tehdit: Kendini geliştiren saldırı sistemi

Araştırmacılar, büyük dil modellerinin güvenlik sistemlerini atlatmak için tasarlanmış ASTRA adlı otomatik bir çerçeve geliştirdi. Bu sistem, geleneksel saldırı yöntemlerinden farklı olarak sürekli öğrenme ve kendini geliştirme kabiliyetine sahip. ASTRA, her etkileşimden öğrenerek saldırı stratejilerini otomatik olarak keşfediyor, saklıyor ve evrimleştiriyor. Sistem, 'saldır-değerlendir-öğren-tekrar kullan' döngüsüyle çalışıyor ve stratejileri etkinlik seviyelerine göre üç katmanlı bir kütüphanede kategorize ediyor. Bu gelişme, yapay zeka güvenliği alanında yeni zorlukları gündeme getirirken, güvenlik sistemlerinin daha dinamik ve adaptif hale getirilmesi gerektiğini ortaya koyuyor. Araştırma, LLM güvenlik açıklarını anlamak ve kapatmak için önemli içgörüler sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modellerindeki Zararlı Davranışları Kökten Silmek Artık Mümkün

Araştırmacılar, yapay zeka modellerindeki zararlı ve güvenli olmayan davranışları doğrudan kaynaklarından silmek için yeni bir yöntem geliştirdi. Mistral ve LLaVA gibi hizalanmış modeller bile eğitim sürecinden kalma istenmeyen davranışlar sergileyebiliyor. Mevcut güvenlik yöntemleri sadece tercih edilen yanıtları teşvik ediyor ancak zararlı çıktılara neden olan alt ağları doğrudan kaldırmıyor. Yeni geliştirilen 'budama' çerçevesi, gradyant-free bir atıf mekanizması kullanarak bu tehlikeli parametreleri tespit ediyor ve kaldırıyor. Sistem, GPU kaynaklarını verimli kullanırken farklı mimarilerde genelleştirilebiliyor. Deneysel sonuçlar, zararlı üretimlerde önemli azalma ve jailbreak saldırılarına karşı daha iyi direnç gösterirken model performansında minimal kayıp olduğunu ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

10 Apr

Büyük Dil Modelleri Zararlı İçeriği Tek ve Birleşik Bir Mekanizma ile Üretiyor

Araştırmacılar, büyük dil modellerinin zararlı davranışları engellemek için aldıkları güvenlik önlemlerinin neden bu kadar kırılgan olduğunu keşfetti. Jailbreak saldırılarının ve dar alanlardaki fine-tuning işlemlerinin güvenlik duvarlarını nasıl aştığını açıklayan birleşik bir mekanizma tespit edildi.

arXiv 0