Tilbage til BlogGDPR & Overholdelse

Hvad Presidio Mangler: De 220+ Enhedstyper, der er Vigtige for GDPR-Kompatibel PII Detektion

Presidio leveres med ~40 standard enhedsgenkendere fokuseret på amerikanske identifikatorer. Europæiske organisationer har brug for IBAN, Codice Fiscale, Steueridentifikationsnummer, EU kørekortsformater og nationale sundhedsidentifikatorer - alt sammen mangler i Presidios standarder.

March 7, 20267 min læsning
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Hvad Presidio Mangler: De 220+ Enhedstyper, der er Vigtige for GDPR-Kompatibel PII Detektion

Microsoft Presidio leveres med cirka 40 standard enhedsgenkendere. For amerikansk-baserede implementeringer, der håndterer amerikansk-centrerede dokumenter, dækker dette de essentielle kategorier: SSN'er, amerikanske pas, amerikanske kørekort, kreditkort, e-mailadresser, telefonnumre og personnavne.

For EU-implementeringer er dækningen betydelig. GDPR gælder for alle EU-personoplysninger uanset nationalitet. EU-organisationer, der behandler deres egne borgeres data, har brug for genkendere, som Presidio ikke leverer som standard.

Den Standard Presidio Enhedsbibliotek

Presidios standardgenkendere inkluderer:

Amerikansk-centrerede identifikatorer:

  • Amerikansk Social Security Number (SSN)
  • Amerikansk Pasnummer
  • Amerikansk Kørekortsnummer (flere statslige formater)
  • Amerikansk Bankkontonummer
  • Amerikansk ITIN (Individual Taxpayer Identification Number)
  • Amerikansk Medicinsk Licensnummer

Universelle identifikatorer:

  • E-mailadresse
  • Telefonnummer (amerikansk-centreret formatprioritet)
  • IP-adresse
  • Kreditkortnummer (Luhn-algoritme)
  • Krypto Wallet Adresse
  • URL

Generiske tekst enheder:

  • PERSON (NER-baseret)
  • LOCATION (NER-baseret)
  • ORGANIZATION (NER-baseret)
  • DATE_TIME (NER-baseret)

Begrænset international dækning:

  • UK NHS-nummer
  • UK National Insurance Number (NINO)
  • Finansielle enhedsidentifikatorer (nogle)

Total: ~40 genkendere

Hvad EU-Organisationer Faktisk Har Brug For

Finansielle identifikatorer: IBAN (International Bank Account Number) forekommer i næsten hvert EU-forretningsdokument, der involverer betalinger, overførsler, fakturering og løn. IBAN-formater varierer fra land til land, men følger en international standard (ISO 13616). Presidio har ingen standard IBAN-genkender.

Et tysk fintech, der behandler kundens betalingsoptegnelser, behandler IBAN-numre i hvert transaktionsdokument. Uden IBAN-genkendelse behandles disse dokumenter med kreditkortdetektion aktiv (detektering af kortnumre), men IBAN-felter (den primære EU-betalingsidentifikator) ignoreres helt.

Nationale skatteidentifikatorer:

  • Tysk Steueridentifikationsnummer: 11-cifret numerisk
  • Fransk NIR (Numéro d'Inscription au Répertoire): 13-tegn alfanumerisk
  • Italiensk Codice Fiscale: 16-tegn alfanumerisk med strukturel validering
  • Spansk NIF/NIE: 9-tegn med bogstavsuffix/præfiks
  • Hollandsk BSN: 9-cifret med 11-bevis validering

Ingen af disse er i Presidios standard enhedsbibliotek. En EU-lønningsprocessor, der håndterer medarbejderdokumenter fra flere medlemslande, er effektivt blind over for deres mest følsomme finansielle identifikatorer.

Nationale sundhedsidentifikatorer:

  • UK NHS-nummer: 10-cifret med modulus-11 kontrol
  • Fransk Numéro de Sécurité Sociale (NIR): Tjener også som sundheds-ID
  • Tysk Krankenkassennummer: Alfanumerisk, forsikringsspecifik
  • Italiensk Codice Fiscale: Bruges også som sundheds-ID
  • Hollandsk BSN: Bruges også til sundhedsforsikring

Sundhedsorganisationer i hele EU har brug for disse identifikatorer til HIPAA-ækvivalent beskyttelse af sundhedsdata. Presidio leverer UK NHS-nummeret, men mangler de kontinentaleuropæiske sundheds-ID'er.

EU-kørekortsformater: Presidio har amerikanske kørekortsgenkendere (stats-specifikke). EU-kørekortsformater er standardiseret under direktiv 2006/126/EC, men varierer fra medlemsstat til medlemsstat i deres alfanumeriske struktur. Ingen EU-kørekortsgenkendere i Presidios standarder.

MOMS-registreringsnumre: EU MOMS-numre forekommer i hver forretnings-til-forretnings transaktion. Format: landekode (2 bogstaver) + 8-12 alfanumeriske cifre. Presidio har ingen MOMS-nummer genkender. For EU-virksomheder, der deler fakturaer, kontrakter og kommercielle dokumenter, er MOMS-numre identifikatorer, der linker til registrerede erhvervsenheder og deres direktører.

EU-pasformater: Amerikansk pasgenkendelse i Presidio, men EU-pasformater (især formatet for den maskinlæselige zone) er ikke dækket.

Ingeniøromkostninger ved udvikling af brugerdefinerede genkendere

Når EU-organisationer implementerer Presidio og opdager dækningens kløft, er svaret typisk udvikling af brugerdefinerede genkendere. Omkostningen:

Per genkender udviklingstid:

  • Undersøg identifikatorformatet: 1-2 timer
  • Skriv PatternRecognizer Python-klasse: 2-4 timer
  • Implementer regex med valideringslogik: 2-4 timer
  • Konfigurer kontekstord for præcisionsforbedring: 1-2 timer
  • Skriv tests: 2-3 timer
  • Integrer og test i implementering: 1-2 timer

Per genkender: 9-17 timer.

For et tysk fintech, der har brug for IBAN + Steuer-ID + EU-kørekort + tysk MOMS + IBAN:

  • 4 brugerdefinerede genkendere × 13 timers gennemsnit = 52 ingeniørtimer
  • Til €100/time: €5,200 i udvikling af brugerdefinerede genkendere

Plus løbende vedligeholdelse, efterhånden som formater ændrer sig, nye testtilfælde opstår, og Presidio API-opdateringer kræver ændringer i genkenderne.

Samlede omkostninger for EU GDPR-dækning oven på Presidio: €5,200+ initial + løbende vedligeholdelse

Alternativet: Administrerede Enhedsbiblioteker

anonym.legal udvider Presidio-grundlaget med 285+ enhedstyper vedligeholdt af udviklingsteamet - inklusive de EU-specifikke identifikatorer, som Presidios standarder mangler:

Dækningshøjdepunkter ud over Presidio-standarder:

  • IBAN (alle EU-medlemsstatsformater)
  • EU-medlemsstats skatteidentifikatorer (inklusive Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL og andre)
  • EU nationale sundhedsidentifikatorer
  • MOMS-numre (EU-format)
  • EU-kørekortsformater
  • Europæiske pasformater
  • Alle 48 understøttede sprog enhedsversioner

Vedligeholdelse: Opdateringer af enhedsbiblioteket pushes som en del af den administrerede service. Når Tyskland introducerer et nyt skatteidentifikatorformat, får brugerne genkenderen uden at indsende en pull request.

Brugerdefineret udvidelse: For organisationsspecifikke identifikatorer, der ikke er i biblioteket, giver den brugerdefinerede enhedbygger mulighed for at tilføje mønstre uden Python-kode.

Det Tyske Fintech Eksempel

Et tysk fintech har brug for at detektere IBAN'er, BIC'er, tyske skatte-ID'er (Steuer-ID) og tyske handelsregistreringsnumre (Handelsregisternummer) i kundedokumenter.

Presidio standard detektionsrate for disse 4 enhedstyper: 0%

Ikke lav præcision, ikke falske positiver - nul detektioner. Ingen af de 4 enhedstyper vises i Presidios standard enhedsbibliotek.

Skrive brugerdefinerede genkendere: 4 genkendere × 13 timer = 52 timer = €5,200 til ingeniørpriser.

Brug af administreret enhedsbibliotek med alle 4 dækket: €180/år (Professionel plan).

Omkostningerne for at opnå GDPR-kompatibel detektion af disse tyske finansielle identifikatorer:

  • Presidio-ruten: €5,200 ingeniør + Presidio driftsomkostninger
  • Administreret service ruten: €180/år, der detekterer alle 4 ud af boksen

Kløften er 28x i det første år. For hvert driftsår tilføjer ingeniørtid til vedligeholdelse af brugerdefinerede genkendere til Presidio-omkostningerne, mens omkostningerne til den administrerede service forbliver flade.

Konklusion

Presidios ~40 standardgenkendere tjener amerikansk-centrerede brugssager godt. For EU-implementeringer, der kræver GDPR-overholdelse på tværs af medlemsstats-specifikke identifikatorer, er dækningen ud af boksen utilstrækkelig. Kløften udfyldes enten gennem udvikling af brugerdefinerede genkendere (dyre, tidskrævende) eller en administreret service, der opretholder EU-enhedsdækning som en del af abonnementet.

For EU-organisationer, hvor overholdelse er ikke-forhandlingsbar, og ingeniørressourcer er begrænsede, eliminerer den administrerede services forudbyggede EU-enhedsbibliotek et 50+ timers brugerdefineret udviklingsprojekt før anonymisering af første dokument.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.