Yapay Zeka Modelleri Zararsız Talepleri Neden Reddediyor? Yeni Çözüm Geldi

Büyük dil modelleri (LLM'ler) güvenlik mekanizmaları nedeniyle zararsız talepleri bile reddeden 'aşırı ret' davranışı sergiliyor. Bu durum, duygu analizi veya çeviri gibi rutin görevlerde bile modellerin işe yaramaz hale gelmesine neden oluyor. Araştırmacılar, modellerin embedding uzayında 'takımyıldızı' benzeri örüntüler oluşturduğunu keşfetti. Her doğal dil işleme görevi, katmanlar arasında tutarlı yörüngeler takip ediyor ve ret ile ret-olmayan durumlar arasında öngörülebilir değişiklikler gösteriyor. SafeConstellations adlı yeni yaklaşım, bu yörünge örüntülerini izleyerek modelleri doğru yöne yönlendiriyor.

Büyük dil modelleri günümüzde pek çok alanda kullanılırken, beklenmedik bir sorunla karşılaşıyoruz: bu modeller güvenlik endişeleriyle zararsız talepleri bile reddedebiliyor. 'Aşırı ret' olarak adlandırılan bu davranış, özellikle duygu analizi, dil çevirisi gibi belirli görevlerde sürekli kullanılan uygulamalarda ciddi sorunlar yaratıyor.

Araştırmacılar, modellerin zararlı içerik barındıran girdileri zararsız amaçlarla yeniden çerçevelendirilse bile reddetmeye devam ettiğini kapsamlı değerlendirmelerle ortaya koydu. Bu durumun altında yatan mekanizmayı anlamak için yapılan analiz, şaşırtıcı bir keşfe yol açtı.

Modellerin embedding uzayında 'takımyıldızı' benzeri örüntüler oluşturduğu tespit edildi. Her doğal dil işleme görevi, katmanlar arasında geçerken kendine özgü ve tutarlı yörüngeler izliyor. Bu yörüngeler, ret ve ret-olmayan durumlar arasında öngörülebilir şekilde değişiyor.

Bu keşif üzerine geliştirilen SafeConstellations yaklaşımı, çıkarım sırasında göreve özel yörünge örüntülerini takip ederek modelleri doğru yöne yönlendiriyor. Sistem, modelin güvenlik özelliklerini korurken aşırı ret davranışını azaltmayı hedefliyor.

Bu gelişme, yapay zeka güvenliği ile kullanılabilirlik arasındaki dengeyi kurma konusunda önemli bir adım olarak değerlendiriliyor.