Yapay zeka güvenliği alanında yeni bir dönem başlatan TwinGate sistemi, büyük dil modellerine yönelik sofistike saldırı tekniklerine karşı etkili bir kalkan oluşturuyor. Bu sistem, özellikle 'parçalayıcı jailbreak' saldırılarına odaklanıyor.
Parçalayıcı saldırılar, kötü niyetli kullanıcıların zararlı bir amacı küçük parçalara bölerek, her birini ayrı ayrı masum sorular halinde sunması prensibi üzerine kurulu. Bu teknikle saldırganlar, yapay zeka sistemlerinin güvenlik filtrelerini atlatarak yasak içerik ürettirebiliyor.
TwinGate'in en büyük yeniliği, kullanıcı kimliklerinin tamamen gizli olduğu ve sürekli sorgu akışının bulunduğu gerçek dünya koşullarında çalışabilmesi. Sistem, asimetrik kontrastif öğrenme adlı gelişmiş bir makine öğrenmesi tekniği kullanıyor.
Bu teknoloji sayesinde TwinGate, yüzeyde farklı görünen ama aynı kötü amaca hizmet eden sorguları gruplandırabiliyor. Sistem, iki ayrı kodlayıcı kullanarak durumu takip ediyor ve zararlı sorgu dizilerini tespit ediyor.
Mevcut savunma sistemlerinin aksine TwinGate, yoğun hesaplama gücü gerektirmeden çalışabiliyor. Bu özellik, sistemin geniş ölçekli uygulamalarda pratik kullanımını mümkün kılıyor ve yapay zeka güvenliği alanında önemli bir ilerleme sağlıyor.