Kişisel Verileri Tespit Eden AI Sistemleri İçin Dev Benchmark Veri Seti Oluşturuldu

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, kişisel tanımlayıcı bilgileri (PII) tespit eden yapay zeka sistemlerinin performansını değerlendirmek için PIIBench adlı kapsamlı bir benchmark veri seti geliştirdi. 2,4 milyon açıklamalı metin dizisi ve 3,35 milyon varlık referansı içeren bu veri seti, 10 farklı kaynaktan toplanan verileri birleştirerek 48 farklı kişisel bilgi türünü kapsıyor. Daha önce parçalı halde bulunan ve uyumsuz etiketleme sistemleri kullanan veri setlerini standart bir formatta birleştiren bu çalışma, kişisel veri koruma alanında çalışan AI sistemlerinin sistematik olarak karşılaştırılmasına olanak sağlayacak. Çok dilli NER veri setleri, sentetik PII korpusları ve finansal alan metinlerini kapsayan benchmark, veri gizliliği ve güvenliği konularında artan ihtiyaçlara yanıt veriyor.

Stanford Üniversitesi ve diğer kurumlardan araştırmacılar, kişisel tanımlayıcı bilgilerin (PII) metinlerde tespit edilmesi için geliştirilen yapay zeka sistemlerinin performansını değerlendirmecek kapsamlı bir benchmark veri seti olan PIIBench'i tanıttı.

Kişisel veri koruma yasalarının yaygınlaşması ve dijital gizlilik endişelerinin artmasıyla birlikte, metinlerdeki ad, telefon numarası, e-posta adresi gibi kişisel bilgileri otomatik olarak tespit eden sistemlere olan ihtiyaç büyüyor. Ancak bu alanda çalışan araştırmacılar, farklı veri setlerinin uyumsuz etiketleme sistemleri kullanması nedeniyle sistematik karşılaştırma yapma konusunda zorluklarla karşılaşıyordu.

PIIBench, bu sorunu çözmek için on farklı kaynaktan toplanan veri setlerini tek bir standart altında birleştiriyor. Veri seti, 2,4 milyon açıklamalı metin dizisi ve 3,35 milyon varlık referansı içerecek şekilde 48 farklı kişisel bilgi türünü kapsıyor. Araştırmacılar, 80'den fazla kaynak-spesifik etiket varyantını standart BIO etiketleme şemasına dönüştüren sistematik bir normalleştirme süreci geliştirdi.

Benchmark, sentetik PII korpusları, çok dilli Named Entity Recognition (NER) veri setleri ve finansal alan metinlerini içeriyor. Veri seti %80 eğitim, %10 doğrulama ve %10 test olmak üzere katmanlı bir şekilde bölündü. Araştırmacılar ayrıca sekiz farklı temel modelin performansını değerlendirerek benchmark'ın zorluk seviyesini belirledi.

Kişisel Verileri Tespit Eden AI Sistemleri İçin Dev Benchmark Veri Seti Oluşturuldu

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

İnsan gözünü taklit eden yeni sinaps teknolojisi geliştirildi

NVIDIA kampüsünde dikey yüzeylerde çalışan yapay zeka robotu test ediliyor

Avustralya'da 4 Günlük Çalışma Haftası Deneyi Başarılı Sonuçlar Verdi