Yapay zeka destekli kod geliştirme araçlarının yaygınlaşmasıyla birlikte, kaynak kod veri setlerinin korunması önemli bir sorun haline geldi. Araştırmacılar bu soruna çözüm olarak DuCodeMark adlı yenilikçi bir filigran sistemi geliştirdi.
DuCodeMark, kod örneklerini soyut sözdizimi ağaçlarına (AST) dönüştürerek çalışıyor. Bu yaklaşım, kodun yapısını analiz ederek dile özgü stil dönüşümleri uygulıyor ve böylece tespit edilmesi zor sahiplik işaretleri oluşturuyor. Sistem, geleneksel filigran yöntemlerinin aksine sadece kaynak kod görevleriyle sınırlı kalmıyor, aynı zamanda kod derleme işlemlerinde de etkili şekilde çalışabiliyor.
Sistemin en dikkat çekici özelliği, belirli kod örneklerine 'zehirli özellikler' enjekte etmesi. Bu özellikler, filigranın kaldırılması veya atlatılması girişimlerine karşı güçlü bir koruma sağlıyor. Önemli olan nokta, bu özelliklerin normal eğitim süreçlerinde pasif kalması ve modelin performansını olumsuz etkilememesi.
Büyük kod dil modellerinin (CodeLM) gelişimi ve açık kaynak projelerin artmasıyla birlikte, kod veri setlerinin yetkisiz kullanımı ciddi bir endişe kaynağı oldu. DuCodeMark, bu alanda önemli bir adım olarak değerlendiriliyor ve gelecekte kod koruma teknolojilerinin gelişimine katkı sağlayabilir.