Waarom zelf-gehoste PII-tools compliance-audits niet doorstaan
GDPR vereist bewijs. U moet aantonen dat PII-verwijdering elke keer op dezelfde manier is uitgevoerd. DPA-auditors controleren dit. Ze willen een duidelijke, consistente methode zien die voor alle data is gebruikt.
Zelf-gehoste Presidio heeft hier een reëel probleem. Het is geen configuratiekwestie. Het is een fundamentele beperking van zelf-gehoste NLP-tools.
Wat is omgevingsdrift?
Zelf-gehoste Presidio is afhankelijk van spaCy-taalmodellen. spaCy brengt regelmatig nieuwe versies uit. Versie 3.4.4 produceert andere NER-resultaten dan versie 3.5.1. Dit is gedocumenteerd gedrag — modelverbetering verandert detectie-uitkomsten.
Een financieel dienstverlener voerde een audit uit op zijn geanonimiseerde dataset. Ze ontdekten dat 3% van de documenten anders was geanonimiseerd in staging dan in productie. Oorzaak: staging had spaCy 3.4.4, productie had 3.5.1.
De audit-implicatie
GDPR vereist consistente toepassing van technische maatregelen. Als uw anonimiseringsresultaten variëren op basis van de modelversie, is uw aanpak niet consistent.
Een DPA-auditor die twee documenten van hetzelfde type vindt die anders zijn geanonimiseerd, stelt vragen. "Welke versie van het model werd gebruikt?" "Wanneer werd het bijgewerkt?" "Heeft u getest of de bijgewerkte versie hetzelfde resultaat produceert?"
Zonder antwoorden op deze vragen heeft u geen verdedigbare nalevingspositie.
De beheerde API-oplossing
Bij een beheerde API-dienst:
- De API-versie is stabiel tenzij expliciet bijgewerkt
- Versie-updates worden aangekondigd
- Auditlogboeken registreren welke API-versie werd gebruikt voor elke sessie
- U kunt bewijzen dat de detectiemethode consistent was over tijd
Anonym.legal's API-versies zijn stabiel en gedocumenteerd. Elk auditlogboek registreert de API-versie. Als detectiegedrag verandert vanwege een modelupdate, is dat traceerbaar en verklaarbaar.