Yapay zeka teknologilerinin veri gizliliği alanındaki potansiyeli ve sınırları üzerine yürütülen yeni bir araştırma, büyük dil modellerinin (LLM) diferansiyel gizlilik koruması altında sentetik veri üretmedeki performansını değerlendirdi.
Çalışmada PersonaLedger adlı ajansal finansal simülatör kullanıldı. Bu sistem, gerçek kullanıcı istatistiklerinden türetilen diferansiyel gizlilik korumalı sentetik kişiliklerle beslenerek test edildi. Diferansiyel gizlilik, veri setlerine gürültü ekleyerek bireysel mahremiyeti koruma yöntemidir.
Araştırma sonuçları ikili bir tablo ortaya koydu. Olumlu tarafta, PersonaLedger epsilon=1 seviyesinde 0.70 AUC skoru ile dolandırıcılık tespitinde umut verici bir performans sergiledi. Bu, sistemin finansal anormallikleri tespit etmede makul düzeyde başarılı olduğunu gösteriyor.
Ancak kritik bir sorun ortaya çıktı: Sistem, önemli dağılım kayması yaşadı. Bu sapmanın nedeni, LLM'lerin sistematik önyargıları olarak belirlendi. Yapay zeka modelleri, eğitim sırasında öğrendikleri kalıpları, girdi verilerindeki gerçek istatistiklerin üzerine koyarak özellikle zaman ve demografik özellikler açısından bozulmalar yarattı.
Bu bulgular, LLM tabanlı veri üretim yöntemlerinin daha karmaşık kullanıcı profillerinde kullanılabilmesi için öncelikle bu temel sorunların çözülmesi gerektiğini vurguluyor.