Stanford ve diğer kurumlardan araştırmacılar, yapay zeka güvenlik sistemlerindeki kritik bir zafiyeti ortaya çıkaran çığır açıcı bir çalışma yayınladı. Araştırma, güvenlik önlemleriyle donatılmış büyük dil modellerinin nasıl manipüle edilebileceğine dair matematiksel yasalar keşfetti.

Çalışmanın en çarpıcı bulgusu, saldırı başarı oranlarındaki dramatik değişimdir. Normal koşullarda, zararlı içerik üretme girişimlerinin başarı oranı yavaş bir polinom büyüm gösterirken, özel saldırı tekniklerinin kullanılmasıyla bu oran üstel olarak artabiliyor. Bu geçiş, özellikle 'prompt injection' adı verilen teknikle gerçekleşiyor - yani zararlı komutların masum görünen sorulara gizlice eklenmesiyle.

Araştırma ekibi, bu fenomeni açıklamak için fizikten ilham aldıkları sofistike bir teorik model geliştirdi. Spin-cam sistemleri ve Gibbs ölçümlerine dayanan bu model, AI'ın güvenli ve güvenli olmayan davranışlar arasındaki geçişi matematiksel olarak açıklıyor.

Bu bulgular, ChatGPT, Claude ve benzeri AI sistemlerinin güvenlik açıkları konusunda yeni perspektifler sunuyor. Araştırma, gelecekte daha sağlam güvenlik önlemleri geliştirilmesi için kritik bilgiler sağlıyor ve AI güvenliği alanında önemli bir adım teşkil ediyor.