Waarom binaire PII-detectie faalt bij compliance
Gedetecteerd/niet-gedetecteerd vlaggen kunnen geen verdedigbare redactiebeslissingen ondersteunen. Vertrouwensscoring transformeert PII-anonimisering van een binaire gok naar een auditeerbare nalevingscontrole.
Wat binaire detectie mist
Een binair detectiesysteem geeft één antwoord: dit IS PII of dit is GEEN PII. Geen gradaties. Geen twijfels.
In de praktijk is PII-detectie zelden zo duidelijk. Context bepaalt of iets persoonsgegeven is:
- "Jan Jansen" in een e-mail naar een klant: duidelijk PII
- "Jan Jansen" als naam van de auteur van een aangehaald wetenschappelijk artikel: mogelijk niet PII in dit context
- "Amsterdam" als woonadres: PII
- "Amsterdam" als zinsverwijzing naar de stad: geen PII
Binaire detectie behandelt alle vier gevallen hetzelfde. Vertrouwensscoring niet.
Vertrouwensscores en menselijk oordeel
Een vertrouwensscore geeft de waarschijnlijkheid dat een detectie correct is. Hoge vertrouwensscore (>0,90): het systeem is vrijwel zeker dat dit PII is. Lage vertrouwensscore (0,50–0,70): het systeem heeft twijfels.
Voor compliance-workflows:
- Hoge vertrouwensscores (>0,90): automatisch verwerken, geen menselijke review
- Middelhoge scores (0,70–0,90): markeren voor optionele review
- Lage scores (<0,70): markeren voor verplichte menselijke review
Deze drempel-aanpak reduceert reviewtijd (de meeste hoge-vertrouwens detecties vereisen geen review) terwijl menselijk oordeel behouden blijft voor twijfelgevallen.
De audit-verdedigbaarheid
In e-discovery: een advocaat moet elke redactie kunnen verdedigen. Waarom werd dit geredigeerd? Waarom werd dat niet geredigeerd?
Meteen vertrouwensscores en menselijke review-records:
- "Dit werd geredigeerd want het systeem gaf 0,94 vertrouwen als persoonsnaam, bevestigd door review"
- "Dit werd niet geredigeerd want het systeem gaf 0,52 vertrouwen en review bepaalde dat het een productnaam was"
Dit is verdedigbaar. Binaire detectie zonder vertrouwensscores is dat niet.
Anonym.legal retourneert vertrouwensscores per entiteitsdetectie. Het review-systeem segmenteert detecties op drempelwaarden. Auditlogboeken registreren zowel de score als de review-beslissing.