Görünmez Uyum Vergisi
PII tespit araçları genellikle hatırlama oranı üzerinden değerlendirilir - araç gerçek PII'nin ne kadarını yakaladı? Ancak hassasiyet - aracın tespitlerinin ne kadarının gerçek PII olduğu - aracın kullanımının operasyonel maliyetini belirler.
%95 hatırlama oranına ve %22.7 hassasiyete sahip bir sistem, gerçek PII'nin %95'ini yakalar, ancak her tespit edilen gerçek PII varlığı için 3.4 yanlış pozitif işaretler. 10,000 gerçek PII varlığı içeren bir veri setinde, bu sistem 10,000 / 0.227 ≈ 44,000 toplam tespit üretir, bunların 34,000'i manuel inceleme gerektiren veya aşırı redaksiyona neden olan yanlış pozitiflerdir.
Bu, "yanlış pozitif vergisi"dir: üretim ölçeğinde yüksek hatırlama, düşük hassasiyet PII tespit sistemi kullanmaya çalışan herhangi bir organizasyonun maruz kaldığı operasyonel yük. Yanlış pozitif vergisinin doğrudan maliyetleri vardır - manuel inceleme süresi - ve dolaylı maliyetler: aşırı redakte edilmiş belgeler ilgili bilgileri gizler, iş akışlarını yavaşlatır ve otomatik sisteme olan güveni azaltır.
Presidio Sorunu #1071 Ne Belgeliyor
Microsoft Presidio GitHub tartışması #1071 (2024), belirli ve sistematik bir yanlış pozitif desenini belgelemektedir. TFN (Vergi Dosya Numarası) ve kontrol toplamı doğrulaması olan PCI tanıyıcıları, kontrol toplamı algoritmasını geçebilen PII olmayan sayılar için 1.0 - maksimum güven - güven puanları üretmektedir.
Tasarım sorunu: bağlam kelime kontrolü ("vergi dosya numarası" veya "TFN" gibi kelimelerin tespit edilen varlığın yakınında görünüp görünmediğini doğrulama) kontrol toplamı adımından sonra uygulanmaktadır, önce değil. Kontrol toplamını geçen sayılar, bağlamdan bağımsız olarak 1.0 puan alır. Sayısal veri içeren belgelerde - finansal tablolar, bilimsel veri setleri, günlük dosyaları - bu, yalnızca puan eşiği ile filtrelenemeyen yanlış pozitiflerin bir selini üretir.
Presidio topluluğundan ayrı bir desen (GitHub sorunu #999): Almanca kelime segmentasyonu, isim ve yer varlıkları için yanlış pozitifler oluşturur. "Bundesbehörde" (federal otorite) gibi Almanca bileşikler veya yaygın Almanca terimler yanlış bir şekilde segmentlenebilir ve kişisel isimler olarak tespit edilebilir.
%22.7 Hassasiyet Sorunu
Alvaro ve ark. (2024), karma dilli kurumsal veri setlerinde Presidio varsayılan ayarlarını değerlendirmiş ve %22.7 hassasiyet bulmuşlardır - bu, gerçek kurumsal belgelerde Presidio tespitlerinin 4'te 1'inden daha azının gerçek PII'ye karşılık geldiği anlamına gelir. Bu rakam, uygulayıcıların saha deneyimi ile tutarlıdır: hatırlama için ayarlanmış Presidio, üretimde kullanılamaz gürültü üretmektedir.
2024 yılında DICOM tıbbi görüntüleme meta verilerini inceleyen bir çalışma, score_threshold=0.7 ile bile 39 DICOM görüntüsünden 38'inin hala yanlış pozitif varlıklar içerdiğini bulmuştur. Bir belge türü için yanlış pozitifleri ortadan kaldıran eşik, başka bir belge türü için yanlış negatifler yaratır.
Hassasiyet sorunu, yalnızca Presidio'ya özgü değildir - bu, çeşitli belge türleri, diller ve veri formatları arasında yüksek hassasiyet elde eden yüksek hatırlama PII dedektörü oluşturmanın doğasında var olan zorluğu yansıtır. Zorluk, herhangi bir sabit eşik değerinin bir takas temsil etmesidir: yüksek eşik yanlış pozitifleri azaltır ancak yanlış negatifleri artırır; düşük eşik hatırlamayı artırır ancak yanlış pozitifleri şişirir.
Bağlam Farkındalığına Sahip Çözüm
Eşik ayarlamanın alternatifi, bağlam farkındalığına sahip güven puanlamasıdır. Varlık desen eşleşmesine dayalı olarak güven atamak yerine, bağlam kelimeleri eşleşmenin yakınında göründüğünde güveni artırır ve bağlam yokken yanlış pozitifleri bastırır.
TFN tespiti için: "vergi dosya numarası," "TFN" veya "Avustralya vergisi" belirlenebilir bir pencerede göründüğünde puan artırılır. Yakın bağlam kelimeleri olmadan TFN kontrol toplamını geçen bir sayı, inceleme eşiğinin altına düşen azaltılmış bir güven puanı alır.
Çapraz dilli yanlış pozitifler için: belirli dillere özgü varlık türleri (Alman mali kimlik, Fransız NIR, Avustralya TFN) o dilde tespit edilen belgelere sınırlanabilir. Sadece İngilizce ve Avustralya İngilizcesi belgelerine uygulanan bir TFN dedektörü, aynı dedektörün Almanca belgelerde çalıştığında meydana gelen sistematik yanlış pozitifleri ortadan kaldırır.
Hibrit tespitinin üçüncü katmanı - transformer tabanlı bağlamsal modeller - başka bir katman ekler: model, gerçek bir kişisel ismi ("John Smith, Hasta ID 12345") yanlış pozitiften ayırt etmek için tam çevresel bağlamı değerlendirir.
Kaynaklar: