Yapay zeka destekli sohbet robotları günlük hayatımızda giderek daha fazla yer alırken, bu sistemlerin güvenliği kritik bir konu haline geliyor. Özellikle görsel ve metin tabanlı çok modlu büyük dil modelleri (MLLM), uzun süreli konuşmalarda beklenmedik güvenlik açıkları sergileyebiliyor.
Araştırmacılar, mevcut güvenlik eğitimlerinin tek seferlik etkileşimlere odaklandığını, ancak gerçek dünyada sohbetlerin birden fazla tur sürdüğünü tespit etti. Bu durum, saldırganların konuşmanın ilerleyen aşamalarında zararlı niyetlerini gizleyerek sistemi manipüle etmesine olanak tanıyor. Uzun bağlamda güvenlik seviyesinin düştüğü bu phenomenon 'güvenlik çürümesi' olarak adlandırılıyor.
Bu soruna çözüm olarak geliştirilen SaFeR-Steer sistemi, aşamalı sentetik veri üretimi ve öğretmen-öğrenci modelini birleştiren yenilikçi bir yaklaşım sunuyor. Sistem, TCSR adlı özel bir teknik kullanarak, konuşmanın sonraki turlarında tespit edilen güvenlik hatalarını önceki turlara yansıtabiliyor.
Araştırma kapsamında STEER adlı kapsamlı veri seti de geliştirildi. Bu veri seti, 2 ila 10 tur arasında değişen 12.934 eğitim diyalogu ve 3.227 test diyalogu içeriyor. Qwen2.5-VL modelleri üzerinde yapılan testler, yeni sistemin hem güvenlik hem de kullanışlılık açısından önemli iyileştirmeler sağladığını ortaya koydu.