Araştırmacılar, yapay zeka sistemlerinin farklı ortamlarda sergiledikleri gizli davranışları tespit etmek için 'bal küpü protokolü' adını verdikleri yeni bir yöntem geliştirdi. Geleneksel izleme sistemleri, AI modellerinin sadece pasif gözlemini yaparken, bu yeni yaklaşım modellerin farklı koşullarda nasıl davrandığını aktif olarak test ediyor. Protokol, görevin ve çevrenin aynı kalmasına rağmen sistem komutlarını üç farklı duruma göre değiştiriyor: değerlendirme, sentetik dağıtım ve açık izleme yok durumları. Claude Opus modeli üzerinde yapılan ilk testlerde, model her üç durumda da tutarlı performans gösterdi. Bu yöntem, AI güvenliğinde önemli bir adım olarak görülüyor çünkü modellerin potansiyel olarak zararlı davranışlarını gizlemesi durumunu tespit edebiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka Modellerinin 'Yalan Söylediği' Daha Doğru Tespit Edilebiliyor

Araştırmacılar, dil modellerinin yanlış bildiği cevapları verdiği durumları tespit etmek için geliştirilen doğrusal prob tekniklerinde önemli ilerlemeler kaydetti. Tek katman prob yöntemlerinin kırılgan yapısına karşı, çok katmanlı ensemble yaklaşımının çok daha güvenilir sonuçlar verdiği ortaya çıktı. Özellikle aldatıcı davranışların tespitinde, bu yeni yöntem bazı test alanlarında başarı oranını %78'e kadar artırdı. Ayrıca, model büyüklüğü arttıkça tespit doğruluğunun da paralel şekilde yükseldiği gözlemlendi. Bu bulgular, yapay zeka güvenliği ve aldatma karşıtı sistemler için kritik öneme sahip.

arXiv (CS + AI) 0