Trafik kazası raporlarında yer alan kaza anlatımları, güvenlik analizi için vazgeçilmez bilgiler sunar. Ancak bu metinlerde bulunan kişisel veriler, raporların araştırmalarda geniş çapta kullanılmasını engellemektedir.
Araştırmacılar, bu soruna çözüm getirmek için büyük dil modellerini kullanan gelişmiş bir sistem tasarladı. Sistemin kalbi, iki ana bileşenden oluşuyor: Hibrit Çıkarıcı ve Doğrulayıcı. Hibrit Çıkarıcı, telefon numarası ve e-posta gibi yapısal verileri kural tabanlı modellere yönlendirirken, isim ve adres gibi bağlama bağlı bilgileri özel olarak eğitilmiş dil modellerine aktarıyor.
Geleneksel yöntemlerin aksine, bu sistem belirsiz durumları da başarıyla ele alabiliyor. Kaza anlatımlarında kişisel veriler tutarsız şekilde ve seyrek olarak görünür, bu da manuel tespitin ölçeklenemez olmasına neden olur. Yeni yaklaşım, bağlamı dikkate alarak çok daha hassas sonuçlar üretiyor.
Sistem yerel olarak dağıtılabilir olacak şekilde tasarlandığından, hassas verilerin dış sunuculara gönderilmesine gerek kalmayacak. Bu özellik, gizlilik endişelerini önemli ölçüde azaltırken trafik güvenliği araştırmalarının kapsamını genişletebilir.