Büyük dil modelleri günümüzde pek çok alanda kullanılırken, beklenmedik bir sorunla karşılaşıyoruz: bu modeller güvenlik endişeleriyle zararsız talepleri bile reddedebiliyor. 'Aşırı ret' olarak adlandırılan bu davranış, özellikle duygu analizi, dil çevirisi gibi belirli görevlerde sürekli kullanılan uygulamalarda ciddi sorunlar yaratıyor.
Araştırmacılar, modellerin zararlı içerik barındıran girdileri zararsız amaçlarla yeniden çerçevelendirilse bile reddetmeye devam ettiğini kapsamlı değerlendirmelerle ortaya koydu. Bu durumun altında yatan mekanizmayı anlamak için yapılan analiz, şaşırtıcı bir keşfe yol açtı.
Modellerin embedding uzayında 'takımyıldızı' benzeri örüntüler oluşturduğu tespit edildi. Her doğal dil işleme görevi, katmanlar arasında geçerken kendine özgü ve tutarlı yörüngeler izliyor. Bu yörüngeler, ret ve ret-olmayan durumlar arasında öngörülebilir şekilde değişiyor.
Bu keşif üzerine geliştirilen SafeConstellations yaklaşımı, çıkarım sırasında göreve özel yörünge örüntülerini takip ederek modelleri doğru yöne yönlendiriyor. Sistem, modelin güvenlik özelliklerini korurken aşırı ret davranışını azaltmayı hedefliyor.
Bu gelişme, yapay zeka güvenliği ile kullanılabilirlik arasındaki dengeyi kurma konusunda önemli bir adım olarak değerlendiriliyor.