Hva Presidio Overser: De 220+ Enhetstyper Som Er Essensielle for GDPR-kompatibel PII Deteksjon
Microsoft Presidio leveres med omtrent 40 standard enhetsgjenkjennere. For amerikanske distribusjoner som håndterer amerikanske dokumenter, dekker dette de essensielle kategoriene: SSN, amerikanske pass, amerikanske førerkort, kredittkort, e-postadresser, telefonnumre og personnavn.
For EU-distribusjoner er dekningsgapet betydelig. GDPR gjelder for alle EU-personopplysninger uavhengig av nasjonalitet. EU-organisasjoner som behandler sine egne borgeres data trenger gjenkjennere som Presidio ikke tilbyr rett ut av boksen.
Den Standard Presidio Enhetsbiblioteket
Presidios standardgjenkjennere inkluderer:
US-sentrerte identifikatorer:
- Amerikansk personnummer (SSN)
- Amerikansk passnummer
- Amerikansk førerkortnummer (flere statlige formater)
- Amerikansk bankkontonummer
- Amerikansk ITIN (Individual Taxpayer Identification Number)
- Amerikansk medisinsk lisensnummer
Universelle identifikatorer:
- E-postadresse
- Telefonnummer (prioritet for US-sentrert format)
- IP-adresse
- Kredittkortnummer (Luhn-algoritme)
- Krypto-lommebokadresse
- URL
Generiske tekst-enheter:
- PERSON (NER-basert)
- STED (NER-basert)
- ORGANISASJON (NER-basert)
- DATO_TID (NER-basert)
Begrenset internasjonal dekning:
- UK NHS-nummer
- UK National Insurance Number (NINO)
- Finansielle enhetsidentifikatorer (noen)
Totalt: ~40 gjenkjennere
Hva EU-organisasjoner Faktisk Trenger
Finansielle identifikatorer: IBAN (International Bank Account Number) finnes i praktisk talt hvert EU-forretningsdokument som involverer betalinger, pengeoverføringer, fakturering og lønn. IBAN-formater varierer etter land, men følger en internasjonal standard (ISO 13616). Presidio har ingen standard IBAN-gjenkjenner.
En tysk fintech som behandler kundens betalingsopptegnelser, behandler IBAN-numre i hvert transaksjonsdokument. Uten IBAN-gjenkjenning blir disse dokumentene behandlet med aktiv kredittkortdeteksjon (som oppdager kortnumre), men IBAN-feltene (den primære EU-betalingsidentifikatoren) blir helt ignorert.
Nasjonale skatteidentifikatorer:
- Tysk Steueridentifikationsnummer: 11-sifret numerisk
- Fransk NIR (Numéro d'Inscription au Répertoire): 13-tegn alfanumerisk
- Italiensk Codice Fiscale: 16-tegn alfanumerisk med strukturell validering
- Spansk NIF/NIE: 9-tegn med bokstavsuffix/prefiks
- Nederlandsk BSN: 9-sifret med 11-bevis validering
Ingen av disse er i Presidios standard enhetsbibliotek. En EU-lønningsbehandler som håndterer ansattdokumenter fra flere medlemsland er effektivt blind for deres mest sensitive finansielle identifikatorer.
Nasjonale helseidentifikatorer:
- UK NHS-nummer: 10-sifret med modulus-11 sjekk
- Fransk Numéro de Sécurité Sociale (NIR): Tjener også som helse-ID
- Tysk Krankenkassennummer: Alfanumerisk, forsikringsselskap-spesifikk
- Italiensk Codice Fiscale: Brukes også som helse-ID
- Nederlandsk BSN: Brukes også for helseforsikring
Helseorganisasjoner over hele EU trenger disse identifikatorene for HIPAA-tilsvarende beskyttelse av helsedata. Presidio tilbyr UK NHS-nummeret, men overser de kontinentaleuropeiske helse-IDene.
EU førerkortformater: Presidio har amerikanske førerkortgjenkjennere (stat-spesifikke). EU førerkortformater er standardisert under direktiv 2006/126/EC, men varierer etter medlemsland i deres alfanumeriske struktur. Ingen EU førerkortgjenkjennere i Presidios standarder.
MVA-registreringsnumre: EU MVA-numre finnes i hver forretnings-til-forretnings transaksjon. Format: landskode (2 bokstaver) + 8-12 alfanumeriske sifre. Presidio har ingen MVA-nummergjenkjenner. For EU-virksomheter som deler fakturaer, kontrakter og kommersielle dokumenter, er MVA-numre identifikatorer som knytter seg til registrerte forretningsenheter og deres direktører.
EU passformater: Amerikansk passgjenkjenning i Presidio, men EU passformater (spesielt formatet for maskinlesbare soner) er ikke dekket.
Ingeniørkostnaden for Utvikling av Tilpassede Gjenkjennere
Når EU-organisasjoner distribuerer Presidio og oppdager dekningsgapet for enheter, er responsen typisk utvikling av tilpassede gjenkjennere. Kostnaden:
Per gjenkjenner utviklingstid:
- Forskning på identifikatorformatet: 1-2 timer
- Skrive PatternRecognizer Python-klasse: 2-4 timer
- Implementere regex med valideringslogikk: 2-4 timer
- Konfigurere kontekstord for presisjonsforbedring: 1-2 timer
- Skrive tester: 2-3 timer
- Integrere og teste i distribusjon: 1-2 timer
Per gjenkjenner: 9-17 timer.
For en tysk fintech som trenger IBAN + Steuer-ID + EU førerkort + tysk MVA + IBAN:
- 4 tilpassede gjenkjennere × 13 timer i snitt = 52 ingeniørtimer
- Til €100/time: €5,200 i utvikling av tilpassede gjenkjennere
Pluss pågående vedlikehold ettersom formater endres, nye testtilfeller dukker opp, og Presidio API-oppdateringer krever gjenkjennermodifikasjoner.
Totalkostnad for EU GDPR-dekning i tillegg til Presidio: €5,200+ initial + pågående vedlikehold
Alternativet: Administrerte Enhetsbiblioteker
anonym.legal utvider Presidio-grunnlaget med 285+ enhetstyper vedlikeholdt av utviklingsteamet — inkludert de EU-spesifikke identifikatorene som Presidios standarder overser:
Dekningshøydepunkter utover Presidio-standarder:
- IBAN (alle EU medlemslandsformater)
- EU medlemslands skatteidentifikatorer (inkludert Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, og andre)
- EU nasjonale helseidentifikatorer
- MVA-numre (EU-format)
- EU førerkortformater
- Europeiske passformater
- Alle 48 støttede språk variasjoner av enheter
Vedlikehold: Oppdateringer av enhetsbiblioteket blir sendt som en del av den administrerte tjenesten. Når Tyskland introduserer et nytt skatteidentifikatorformat, får brukerne gjenkjennelsen uten å sende inn en pull request.
Tilpasset utvidelse: For organisasjonsspesifikke identifikatorer som ikke er i biblioteket, lar den tilpassede enhetsbyggeren deg legge til mønstre uten Python-kode.
Eksempelet med Tysk Fintech
En tysk fintech trenger å oppdage IBAN, BIC, tyske skatte-IDer (Steuer-ID) og tyske foretaksregistreringsnumre (Handelsregisternummer) i kundedokumenter.
Presidio standard deteksjonsrate for disse 4 enhetstypene: 0%
Ikke lav presisjon, ikke falske positive — null deteksjoner. Ingen av de 4 enhetstypene vises i Presidios standard enhetsbibliotek.
Skrive tilpassede gjenkjennere: 4 gjenkjennere × 13 timer = 52 timer = €5,200 til ingeniørpriser.
Bruke administrert enhetsbibliotek med alle 4 dekket: €180/år (Profesjonell plan).
Kostnad for å oppnå GDPR-kompatibel deteksjon av disse tyske finansielle identifikatorene:
- Presidio-ruten: €5,200 ingeniør + Presidio driftskostnader
- Administrert tjenesterute: €180/år, oppdager alle 4 rett ut av boksen
Gapet er 28x i det første året. For hvert driftsår legger ingeniørtid for vedlikehold av tilpassede gjenkjennere seg til Presidio-kostnaden mens kostnaden for den administrerte tjenesten forblir flat.
Konklusjon
Presidios ~40 standardgjenkjennere tjener US-sentrerte bruksområder godt. For EU-distribusjoner som krever GDPR-overholdelse på tvers av medlemsland-spesifikke identifikatorer, er dekningen rett ut av boksen utilstrekkelig. Gapet fylles enten gjennom utvikling av tilpassede gjenkjennere (dyrt, tidkrevende) eller en administrert tjeneste som opprettholder EU-enhetsdekning som en del av abonnementet.
For EU-organisasjoner der overholdelse er ikke-forhandlingsbar og ingeniørressurser er begrenset, eliminerer den administrerte tjenestens forhåndsbygde EU-enhetsbibliotek et 50+ timers tilpasset utviklingsprosjekt før anonymisering av første dokument.
Kilder: