Tilbake til BloggGDPR & Overholdelse

Hva Presidio Overser: De 220+ Enhetstyper Som Er Essensielle for GDPR-kompatibel PII Deteksjon

Presidio leveres med ~40 standard enhetsgjenkjennere fokusert på amerikanske identifikatorer. Europeiske organisasjoner trenger IBAN, Codice Fiscale, Steueridentifikationsnummer, EU førerkortformater og nasjonale helseidentifikatorer — alt mangler i Presidios standarder.

March 7, 20267 min lesing
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Hva Presidio Overser: De 220+ Enhetstyper Som Er Essensielle for GDPR-kompatibel PII Deteksjon

Microsoft Presidio leveres med omtrent 40 standard enhetsgjenkjennere. For amerikanske distribusjoner som håndterer amerikanske dokumenter, dekker dette de essensielle kategoriene: SSN, amerikanske pass, amerikanske førerkort, kredittkort, e-postadresser, telefonnumre og personnavn.

For EU-distribusjoner er dekningsgapet betydelig. GDPR gjelder for alle EU-personopplysninger uavhengig av nasjonalitet. EU-organisasjoner som behandler sine egne borgeres data trenger gjenkjennere som Presidio ikke tilbyr rett ut av boksen.

Den Standard Presidio Enhetsbiblioteket

Presidios standardgjenkjennere inkluderer:

US-sentrerte identifikatorer:

  • Amerikansk personnummer (SSN)
  • Amerikansk passnummer
  • Amerikansk førerkortnummer (flere statlige formater)
  • Amerikansk bankkontonummer
  • Amerikansk ITIN (Individual Taxpayer Identification Number)
  • Amerikansk medisinsk lisensnummer

Universelle identifikatorer:

  • E-postadresse
  • Telefonnummer (prioritet for US-sentrert format)
  • IP-adresse
  • Kredittkortnummer (Luhn-algoritme)
  • Krypto-lommebokadresse
  • URL

Generiske tekst-enheter:

  • PERSON (NER-basert)
  • STED (NER-basert)
  • ORGANISASJON (NER-basert)
  • DATO_TID (NER-basert)

Begrenset internasjonal dekning:

  • UK NHS-nummer
  • UK National Insurance Number (NINO)
  • Finansielle enhetsidentifikatorer (noen)

Totalt: ~40 gjenkjennere

Hva EU-organisasjoner Faktisk Trenger

Finansielle identifikatorer: IBAN (International Bank Account Number) finnes i praktisk talt hvert EU-forretningsdokument som involverer betalinger, pengeoverføringer, fakturering og lønn. IBAN-formater varierer etter land, men følger en internasjonal standard (ISO 13616). Presidio har ingen standard IBAN-gjenkjenner.

En tysk fintech som behandler kundens betalingsopptegnelser, behandler IBAN-numre i hvert transaksjonsdokument. Uten IBAN-gjenkjenning blir disse dokumentene behandlet med aktiv kredittkortdeteksjon (som oppdager kortnumre), men IBAN-feltene (den primære EU-betalingsidentifikatoren) blir helt ignorert.

Nasjonale skatteidentifikatorer:

  • Tysk Steueridentifikationsnummer: 11-sifret numerisk
  • Fransk NIR (Numéro d'Inscription au Répertoire): 13-tegn alfanumerisk
  • Italiensk Codice Fiscale: 16-tegn alfanumerisk med strukturell validering
  • Spansk NIF/NIE: 9-tegn med bokstavsuffix/prefiks
  • Nederlandsk BSN: 9-sifret med 11-bevis validering

Ingen av disse er i Presidios standard enhetsbibliotek. En EU-lønningsbehandler som håndterer ansattdokumenter fra flere medlemsland er effektivt blind for deres mest sensitive finansielle identifikatorer.

Nasjonale helseidentifikatorer:

  • UK NHS-nummer: 10-sifret med modulus-11 sjekk
  • Fransk Numéro de Sécurité Sociale (NIR): Tjener også som helse-ID
  • Tysk Krankenkassennummer: Alfanumerisk, forsikringsselskap-spesifikk
  • Italiensk Codice Fiscale: Brukes også som helse-ID
  • Nederlandsk BSN: Brukes også for helseforsikring

Helseorganisasjoner over hele EU trenger disse identifikatorene for HIPAA-tilsvarende beskyttelse av helsedata. Presidio tilbyr UK NHS-nummeret, men overser de kontinentaleuropeiske helse-IDene.

EU førerkortformater: Presidio har amerikanske førerkortgjenkjennere (stat-spesifikke). EU førerkortformater er standardisert under direktiv 2006/126/EC, men varierer etter medlemsland i deres alfanumeriske struktur. Ingen EU førerkortgjenkjennere i Presidios standarder.

MVA-registreringsnumre: EU MVA-numre finnes i hver forretnings-til-forretnings transaksjon. Format: landskode (2 bokstaver) + 8-12 alfanumeriske sifre. Presidio har ingen MVA-nummergjenkjenner. For EU-virksomheter som deler fakturaer, kontrakter og kommersielle dokumenter, er MVA-numre identifikatorer som knytter seg til registrerte forretningsenheter og deres direktører.

EU passformater: Amerikansk passgjenkjenning i Presidio, men EU passformater (spesielt formatet for maskinlesbare soner) er ikke dekket.

Ingeniørkostnaden for Utvikling av Tilpassede Gjenkjennere

Når EU-organisasjoner distribuerer Presidio og oppdager dekningsgapet for enheter, er responsen typisk utvikling av tilpassede gjenkjennere. Kostnaden:

Per gjenkjenner utviklingstid:

  • Forskning på identifikatorformatet: 1-2 timer
  • Skrive PatternRecognizer Python-klasse: 2-4 timer
  • Implementere regex med valideringslogikk: 2-4 timer
  • Konfigurere kontekstord for presisjonsforbedring: 1-2 timer
  • Skrive tester: 2-3 timer
  • Integrere og teste i distribusjon: 1-2 timer

Per gjenkjenner: 9-17 timer.

For en tysk fintech som trenger IBAN + Steuer-ID + EU førerkort + tysk MVA + IBAN:

  • 4 tilpassede gjenkjennere × 13 timer i snitt = 52 ingeniørtimer
  • Til €100/time: €5,200 i utvikling av tilpassede gjenkjennere

Pluss pågående vedlikehold ettersom formater endres, nye testtilfeller dukker opp, og Presidio API-oppdateringer krever gjenkjennermodifikasjoner.

Totalkostnad for EU GDPR-dekning i tillegg til Presidio: €5,200+ initial + pågående vedlikehold

Alternativet: Administrerte Enhetsbiblioteker

anonym.legal utvider Presidio-grunnlaget med 285+ enhetstyper vedlikeholdt av utviklingsteamet — inkludert de EU-spesifikke identifikatorene som Presidios standarder overser:

Dekningshøydepunkter utover Presidio-standarder:

  • IBAN (alle EU medlemslandsformater)
  • EU medlemslands skatteidentifikatorer (inkludert Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, og andre)
  • EU nasjonale helseidentifikatorer
  • MVA-numre (EU-format)
  • EU førerkortformater
  • Europeiske passformater
  • Alle 48 støttede språk variasjoner av enheter

Vedlikehold: Oppdateringer av enhetsbiblioteket blir sendt som en del av den administrerte tjenesten. Når Tyskland introduserer et nytt skatteidentifikatorformat, får brukerne gjenkjennelsen uten å sende inn en pull request.

Tilpasset utvidelse: For organisasjonsspesifikke identifikatorer som ikke er i biblioteket, lar den tilpassede enhetsbyggeren deg legge til mønstre uten Python-kode.

Eksempelet med Tysk Fintech

En tysk fintech trenger å oppdage IBAN, BIC, tyske skatte-IDer (Steuer-ID) og tyske foretaksregistreringsnumre (Handelsregisternummer) i kundedokumenter.

Presidio standard deteksjonsrate for disse 4 enhetstypene: 0%

Ikke lav presisjon, ikke falske positive — null deteksjoner. Ingen av de 4 enhetstypene vises i Presidios standard enhetsbibliotek.

Skrive tilpassede gjenkjennere: 4 gjenkjennere × 13 timer = 52 timer = €5,200 til ingeniørpriser.

Bruke administrert enhetsbibliotek med alle 4 dekket: €180/år (Profesjonell plan).

Kostnad for å oppnå GDPR-kompatibel deteksjon av disse tyske finansielle identifikatorene:

  • Presidio-ruten: €5,200 ingeniør + Presidio driftskostnader
  • Administrert tjenesterute: €180/år, oppdager alle 4 rett ut av boksen

Gapet er 28x i det første året. For hvert driftsår legger ingeniørtid for vedlikehold av tilpassede gjenkjennere seg til Presidio-kostnaden mens kostnaden for den administrerte tjenesten forblir flat.

Konklusjon

Presidios ~40 standardgjenkjennere tjener US-sentrerte bruksområder godt. For EU-distribusjoner som krever GDPR-overholdelse på tvers av medlemsland-spesifikke identifikatorer, er dekningen rett ut av boksen utilstrekkelig. Gapet fylles enten gjennom utvikling av tilpassede gjenkjennere (dyrt, tidkrevende) eller en administrert tjeneste som opprettholder EU-enhetsdekning som en del av abonnementet.

For EU-organisasjoner der overholdelse er ikke-forhandlingsbar og ingeniørressurser er begrenset, eliminerer den administrerte tjenestens forhåndsbygde EU-enhetsbibliotek et 50+ timers tilpasset utviklingsprosjekt før anonymisering av første dokument.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.