De Onzichtbare Nalevingsbelasting
PII-detectietools worden doorgaans geëvalueerd op recall — welk percentage van de werkelijke PII heeft de tool opgevangen? Maar precisie — welk percentage van de detecties van de tool zijn daadwerkelijke PII — bepaalt de operationele kosten van het gebruik van de tool.
Een systeem met 95% recall en 22,7% precisie vangt 95% van de echte PII, maar voor elke echte PII-entiteit die wordt gedetecteerd, markeert het 3,4 valse positieven. In een dataset met 10.000 echte PII-entiteiten genereert dit systeem 10.000 / 0.227 ≈ 44.000 totale detecties, waarvan 34.000 valse positieven die handmatige beoordeling vereisen of over-redactie veroorzaken.
Dit is de "valse positieve belasting": de operationele overhead die wordt opgelegd aan elke organisatie die probeert een PII-detectiesysteem met hoge recall en lage precisie op productieschaal te gebruiken. De valse positieve belasting heeft directe kosten — tijd van handmatige beoordelaars — en indirecte kosten: over-geredigeerde documenten verdoezelen relevante informatie, vertragen workflows en verminderen het vertrouwen in het geautomatiseerde systeem.
Wat Presidio Issue #1071 Documenteert
De Microsoft Presidio GitHub-discussie #1071 (2024) documenteert een specifiek en systematisch patroon van valse positieven. TFN (Tax File Number) en PCI-herkenners met checksum-validatie produceren vertrouwensscores van 1.0 — maximale zekerheid — voor niet-PII-nummers die toevallig de checksum-algoritme doorstaan.
Het ontwerpprobleem: contextwoordcontrole (verifiëren dat woorden zoals "tax file number" of "TFN" in de buurt van de gedetecteerde entiteit verschijnen) wordt na de checksum-stap toegepast in plaats van ervoor. Nummers die de checksum doorstaan, krijgen een score van 1.0 ongeacht de context. In documenten met numerieke gegevens — financiële spreadsheets, wetenschappelijke datasets, logbestanden — produceert dit een vloed aan valse positieven die niet alleen door scoredrempels kunnen worden gefilterd.
Een apart patroon uit de Presidio-gemeenschap (GitHub-issue #999): Duitse woordsegmentatie creëert valse positieven voor naam- en locatie-entiteiten. Duitse samenstellingen zoals "Bundesbehörde" (federale autoriteit) of veelvoorkomende Duitse termen kunnen verkeerd worden gesegmenteerd en gedetecteerd als persoonlijke namen.
Het 22,7% Precisieprobleem
Alvaro et al. (2024) evalueerden de standaardinstellingen van Presidio op gemengde taal bedrijfsdatasets en vonden 22,7% precisie — wat betekent dat in echte bedrijfsdocumenten minder dan 1 op de 4 Presidio-detecties overeenkomt met daadwerkelijke PII. Dit cijfer is consistent met de praktijkervaring van professionals: Presidio afgesteld op recall produceert onbruikbaar lawaai in productie.
Een studie uit 2024 die DICOM medische beeldmetadata onderzocht, vond dat zelfs met score_threshold=0.7, 38 van de 39 DICOM-afbeeldingen nog steeds valse positieve entiteiten hadden. De drempel die valse positieven voor het ene documenttype elimineert, creëert valse negatieven voor een ander.
Het precisieprobleem is niet uniek voor Presidio — het weerspiegelt de inherente moeilijkheid van het bouwen van een PII-detector met hoge recall die ook hoge precisie bereikt over diverse documenttypes, talen en gegevensformaten. De uitdaging is dat elke vaste drempel een afweging vertegenwoordigt: een hoge drempel vermindert valse positieven maar verhoogt valse negatieven; een lage drempel verhoogt recall maar inflateert valse positieven.
De Contextbewuste Oplossing
Het alternatief voor drempelafstemming is contextbewuste vertrouwensscore. In plaats van vertrouwen uitsluitend toe te kennen op basis van de patroonovereenkomst van de entiteit, verhoogt contextbewuste scoring het vertrouwen wanneer contextwoorden in de buurt van de overeenkomst verschijnen en onderdrukt het valse positieven wanneer de context ontbreekt.
Voor TFN-detectie: een score wordt verhoogd wanneer "tax file number," "TFN," of "Australian tax" binnen een configureerbaar venster verschijnt. Een nummer dat de TFN-checksum doorstaat zonder nabijgelegen contextwoorden ontvangt een verlaagde vertrouwensscore die onder de beoordelingsdrempel valt.
Voor cross-linguale valse positieven: entiteitstypen die specifiek zijn voor bepaalde talen (Duitse fiscale ID, Franse NIR, Australische TFN) kunnen worden beperkt tot documenten die als die taal zijn gedetecteerd. Een TFN-detector die alleen op Engelse en Australisch-Engelse documenten wordt toegepast, elimineert de systematische valse positieven die optreden wanneer dezelfde detector op Duitse documenten draait.
De derde laag van hybride detectie — transformer-gebaseerde contextuele modellen — voegt een extra laag toe: het model evalueert de volledige omringende context om een echte persoonlijke naam ("John Smith, Patiënt ID 12345") te onderscheiden van een valse positieve (een productidentificator die toevallig overeenkomt met een naam patroon).
Bronnen: