De Valse-Positief Belasting op PII-detectietools
Bijgewerkt voor 2026
De meeste PII-tools worden beoordeeld op recall — hoeveel echte PII de tool vindt. Maar precisie is net zo belangrijk. Precisie meet welk deel van de waarschuwingen van de tool echte PII zijn.
Lage precisie is duur. Een systeem met 95% recall en 22,7% precisie vangt de meeste PII. Maar voor elke echte PII-entiteit die het markeert, genereer het ook 3,4 foute waarschuwingen. In een dataset met 10.000 echte PII-entiteiten veroorzaakt dat systeem ~44.000 waarschuwingen, waarvan ~34.000 verkeerd zijn.
Dit is de valse-positief belasting: de overhead die elk team betaalt bij het draaien van een hoge-recall, lage-precisie PII-systeem op schaal.
Wat Presidio Issue #1071 Toont
Microsoft Presidio GitHub discussie #1071 (2024) registreert een specifiek patroon. De TFN- en PCI-herkenners gebruiken checksum-validatie. Nummers die de checksum halen krijgen een score van 1,0 — maximale betrouwbaarheid. Er is geen PII-context vereist.
De grondoorzaak: contextwoordcontrole loopt na de checksum-stap, niet ervoor. Een nummer dat de checksum haalt, krijgt een topscore ongeacht de omringende tekst.
Het 22,7% Precisieprobleem
Alvaro et al. (2024) testten Presidio op gemengde-taal enterprise datasets. Ze vonden 22,7% precisie. In echte documenten is minder dan één op de vier Presidio-waarschuwingen een echte PII-entiteit.
Een 2024 DICOM-studie toonde dat het verhogen van score_threshold naar 0,7 nog steeds foute waarschuwingen liet in 38 van de 39 medische afbeeldingen.
Contextbewuste Scoring
De fix is contextbewuste betrouwbaarheidsscore. In plaats van alleen op basis van het patroonmatch te scoren, verhoogt het systeem betrouwbaarheid wanneer contextwoorden dicht bij de match verschijnen.
Voor TFN-detectie: woorden zoals "belastingbestand nummer", "TFN", of "Australisch belasting" bij een nummer verhogen de score. Een nummer dat de checksum haalt maar geen nabijgelegen contextwoorden heeft, scoort onder de drempel.
Bekijk de beveiligingspagina.
Bronnen
- Microsoft Presidio GitHub Discussie #1071: systematische valse positieven
- Alvaro et al. (2024): Presidio precisie op gemengde-taal enterprise datasets