Stanford Üniversitesi ve diğer kurumlardan araştırmacılar, kişisel tanımlayıcı bilgilerin (PII) metinlerde tespit edilmesi için geliştirilen yapay zeka sistemlerinin performansını değerlendirmecek kapsamlı bir benchmark veri seti olan PIIBench'i tanıttı.
Kişisel veri koruma yasalarının yaygınlaşması ve dijital gizlilik endişelerinin artmasıyla birlikte, metinlerdeki ad, telefon numarası, e-posta adresi gibi kişisel bilgileri otomatik olarak tespit eden sistemlere olan ihtiyaç büyüyor. Ancak bu alanda çalışan araştırmacılar, farklı veri setlerinin uyumsuz etiketleme sistemleri kullanması nedeniyle sistematik karşılaştırma yapma konusunda zorluklarla karşılaşıyordu.
PIIBench, bu sorunu çözmek için on farklı kaynaktan toplanan veri setlerini tek bir standart altında birleştiriyor. Veri seti, 2,4 milyon açıklamalı metin dizisi ve 3,35 milyon varlık referansı içerecek şekilde 48 farklı kişisel bilgi türünü kapsıyor. Araştırmacılar, 80'den fazla kaynak-spesifik etiket varyantını standart BIO etiketleme şemasına dönüştüren sistematik bir normalleştirme süreci geliştirdi.
Benchmark, sentetik PII korpusları, çok dilli Named Entity Recognition (NER) veri setleri ve finansal alan metinlerini içeriyor. Veri seti %80 eğitim, %10 doğrulama ve %10 test olmak üzere katmanlı bir şekilde bölündü. Araştırmacılar ayrıca sekiz farklı temel modelin performansını değerlendirerek benchmark'ın zorluk seviyesini belirledi.