Wat Presidio Mist: De 220+ Entiteitstypen Essentieel voor GDPR-Conforme PII Detectie
Microsoft Presidio wordt geleverd met ongeveer 40 standaard entiteitsherkenners. Voor op de VS gebaseerde implementaties die Amerikaanse documenten verwerken, dekt dit de essentiële categorieën: SSN's, Amerikaanse paspoorten, Amerikaanse rijbewijzen, creditcards, e-mailadressen, telefoonnummers en persoonsnamen.
Voor EU-implementaties is de dekkingstekort aanzienlijk. GDPR is van toepassing op alle EU-persoonsgegevens, ongeacht nationaliteit. EU-organisaties die de gegevens van hun eigen burgers verwerken, hebben herkenners nodig die Presidio niet standaard biedt.
De Standaard Presidio Entiteitsbibliotheek
De standaard herkenners van Presidio omvatten:
Amerikaans gerichte identificatoren:
- Amerikaanse Sociale Zekerheidsnummer (SSN)
- Amerikaanse Paspoortnummer
- Amerikaanse Rijbewijsnummer (meerdere staatformaten)
- Amerikaanse Bankrekeningnummer
- Amerikaanse ITIN (Individueel Belastingbetalers Identificatienummer)
- Amerikaanse Medische Licentienummer
Universele identificatoren:
- E-mailadres
- Telefoonnummer (prioriteit voor Amerikaans gerichte format)
- IP-adres
- Creditcardnummer (Luhn-algoritme)
- Crypto Wallet-adres
- URL
Generieke tekstentiteiten:
- PERSON (NER-gebaseerd)
- LOCATION (NER-gebaseerd)
- ORGANIZATION (NER-gebaseerd)
- DATE_TIME (NER-gebaseerd)
Beperkte internationale dekking:
- UK NHS-nummer
- UK National Insurance Number (NINO)
- Financiële entiteitsidentificatoren (sommige)
Totaal: ~40 herkenners
Wat EU-organisaties Echt Nodig Hebben
Financiële identificatoren: IBAN (Internationaal Bankrekeningnummer) komt in vrijwel elk EU-zakelijk document voor dat betalingen, overschrijvingen, facturering en loonadministratie betreft. IBAN-formaten variëren per land, maar volgen een internationale standaard (ISO 13616). Presidio heeft geen standaard IBAN-herkenner.
Een Duitse fintech die klantbetalingsrecords verwerkt, verwerkt IBAN-nummers in elk transactie-document. Zonder IBAN-herkenning worden deze documenten verwerkt met actieve creditcarddetectie (detectie van kaartnummers), maar IBAN-velden (de primaire EU-betalingsidentificator) worden volledig genegeerd.
Nationale belastingidentificatoren:
- Duitse Steueridentifikationsnummer: 11-cijferig numeriek
- Franse NIR (Numéro d'Inscription au Répertoire): 13-teken alfanumeriek
- Italiaanse Codice Fiscale: 16-teken alfanumeriek met structurele validatie
- Spaanse NIF/NIE: 9-teken met letterachtervoegsel/-voorvoegsel
- Nederlandse BSN: 9-cijferig met 11-proefvalidatie
Geen van deze zijn in de standaard entiteitsbibliotheek van Presidio. Een EU-loonverwerker die werknemersdocumenten uit meerdere lidstaten beheert, is effectief blind voor hun meest gevoelige financiële identificatoren.
Nationale gezondheidsidentificatoren:
- UK NHS-nummer: 10-cijferig met modulus-11 controle
- Franse Numéro de Sécurité Sociale (NIR): Dient ook als gezondheids-ID
- Duitse Krankenkassennummer: Alfanumeriek, verzekeraar-specifiek
- Italiaanse Codice Fiscale: Wordt ook gebruikt als gezondheids-ID
- Nederlandse BSN: Wordt ook gebruikt voor ziektekostenverzekering
Zorgorganisaties in de EU hebben deze identificatoren nodig voor HIPAA-gelijke bescherming van gezondheidsgegevens. Presidio biedt het UK NHS-nummer, maar mist de continentale Europese gezondheids-ID's.
EU-rijbewijsformaten: Presidio heeft Amerikaanse rijbewijsherkenners (staat-specifiek). EU-rijbewijsformaten zijn gestandaardiseerd onder Richtlijn 2006/126/EG, maar variëren per lidstaat in hun alfanumerieke structuur. Geen EU-rijbewijsherkenners in de standaardinstellingen van Presidio.
BTW-registratienummers: EU-BTW-nummers komen voor in elke zakelijke transactie tussen bedrijven. Formaat: landcode (2 letters) + 8-12 alfanumerieke cijfers. Presidio heeft geen BTW-nummerherkenner. Voor EU-bedrijven die facturen, contracten en commerciële documenten delen, zijn BTW-nummers identificatoren die linken naar geregistreerde zakelijke entiteiten en hun directeuren.
EU-paspoortformaten: Herkenning van Amerikaanse paspoorten in Presidio, maar EU-paspoortformaten (vooral het Machine Readable Zone-formaat) worden niet gedekt.
De Engineering Kosten van Aangepaste Herkennerontwikkeling
Wanneer EU-organisaties Presidio implementeren en het dekkingstekort ontdekken, is de reactie meestal de ontwikkeling van aangepaste herkenners. De kosten:
Per herkenner ontwikkelingstijd:
- Onderzoek het identificatorformaat: 1-2 uur
- Schrijf PatternRecognizer Python-klasse: 2-4 uur
- Implementeer regex met validatielogica: 2-4 uur
- Configureer contextwoorden voor precisieverbetering: 1-2 uur
- Schrijf tests: 2-3 uur
- Integreer en test in implementatie: 1-2 uur
Per herkenner: 9-17 uur.
Voor een Duitse fintech die IBAN + Steuer-ID + EU-rijbewijs + Duitse BTW + IBAN nodig heeft:
- 4 aangepaste herkenners × 13 uur gemiddeld = 52 engineeringuren
- Tegen €100/uur: €5.200 in ontwikkeling van aangepaste herkenners
Plus doorlopende onderhoudskosten naarmate formaten veranderen, nieuwe testgevallen ontstaan en updates van de Presidio API aanpassingen aan herkenners vereisen.
Totale kosten voor EU GDPR-dekking bovenop Presidio: €5.200+ initiële + doorlopende onderhoudskosten
Het Alternatief: Beheerde Entiteitsbibliotheken
anonym.legal breidt de Presidio-fundering uit met 285+ entiteitstypen die door het ontwikkelingsteam worden onderhouden — inclusief de EU-specifieke identificatoren die ontbreken in de standaardinstellingen van Presidio:
Dekking hoogtepunten boven de standaardinstellingen van Presidio:
- IBAN (alle EU-lidstaatformaten)
- EU-lidstaat belastingidentificatoren (inclusief Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL en anderen)
- EU nationale gezondheidsidentificatoren
- BTW-nummers (EU-formaat)
- EU-rijbewijsformaten
- Europese paspoortformaten
- Alle 48 ondersteunde taalentiteitvariaties
Onderhoud: Updates van de entiteitsbibliotheek worden gepushed als onderdeel van de beheerde service. Wanneer Duitsland een nieuw belastingidentificatorformaat introduceert, krijgen gebruikers de herkenner zonder een pull request in te dienen.
Aangepaste uitbreiding: Voor organisatie-specifieke identificatoren die niet in de bibliotheek staan, stelt de aangepaste entiteitsbouwer in staat om patronen toe te voegen zonder Python-code.
Het Duitse Fintech Voorbeeld
Een Duitse fintech moet IBAN's, BIC's, Duitse belastingnummers (Steuer-ID) en Duitse handelsregistratienummers (Handelsregisternummer) detecteren in klantdocumenten.
Standaard detectiepercentage van Presidio voor deze 4 entiteitstypen: 0%
Niet lage precisie, niet valse positieven — nul detecties. Geen van de 4 entiteitstypen komt voor in de standaard entiteitsbibliotheek van Presidio.
Aangepaste herkenners schrijven: 4 herkenners × 13 uur = 52 uur = €5.200 tegen engineeringtarieven.
Gebruik van beheerde entiteitsbibliotheek met alle 4 gedekt: €180/jaar (Professioneel plan).
Kosten om GDPR-conforme detectie van deze Duitse financiële identificatoren te bereiken:
- Presidio-route: €5.200 engineering + operationele kosten Presidio
- Beheerde service-route: €180/jaar, detectie van alle 4 uit de doos
De kloof is 28x in het eerste jaar. Voor elk jaar van operatie voegt de engineeringtijd voor onderhoud van aangepaste herkenners zich bij de kosten van Presidio, terwijl de kosten van de beheerde service constant blijven.
Conclusie
De ~40 standaard herkenners van Presidio dienen Amerikaanse gerichte use cases goed. Voor EU-implementaties die GDPR-naleving vereisen voor lidstaat-specifieke identificatoren, is de out-of-the-box dekking onvoldoende. De kloof wordt opgevuld ofwel door de ontwikkeling van aangepaste herkenners (duur, tijdrovend) of door een beheerde service die de EU-entiteitsdekking als onderdeel van het abonnement onderhoudt.
Voor EU-organisaties waar naleving niet onderhandelbaar is en engineeringbronnen beperkt zijn, elimineert de vooraf gebouwde EU-entiteitsbibliotheek van de beheerde service een project van meer dan 50 uur voor aangepaste ontwikkeling vóór de anonimisatie van het eerste document.
Bronnen: