Hvad Presidio Mangler: De 220+ Enhedstyper, der er Vigtige for GDPR-Kompatibel PII Detektion
Microsoft Presidio leveres med cirka 40 standard enhedsgenkendere. For amerikansk-baserede implementeringer, der håndterer amerikansk-centrerede dokumenter, dækker dette de essentielle kategorier: SSN'er, amerikanske pas, amerikanske kørekort, kreditkort, e-mailadresser, telefonnumre og personnavne.
For EU-implementeringer er dækningen betydelig. GDPR gælder for alle EU-personoplysninger uanset nationalitet. EU-organisationer, der behandler deres egne borgeres data, har brug for genkendere, som Presidio ikke leverer som standard.
Den Standard Presidio Enhedsbibliotek
Presidios standardgenkendere inkluderer:
Amerikansk-centrerede identifikatorer:
- Amerikansk Social Security Number (SSN)
- Amerikansk Pasnummer
- Amerikansk Kørekortsnummer (flere statslige formater)
- Amerikansk Bankkontonummer
- Amerikansk ITIN (Individual Taxpayer Identification Number)
- Amerikansk Medicinsk Licensnummer
Universelle identifikatorer:
- E-mailadresse
- Telefonnummer (amerikansk-centreret formatprioritet)
- IP-adresse
- Kreditkortnummer (Luhn-algoritme)
- Krypto Wallet Adresse
- URL
Generiske tekst enheder:
- PERSON (NER-baseret)
- LOCATION (NER-baseret)
- ORGANIZATION (NER-baseret)
- DATE_TIME (NER-baseret)
Begrænset international dækning:
- UK NHS-nummer
- UK National Insurance Number (NINO)
- Finansielle enhedsidentifikatorer (nogle)
Total: ~40 genkendere
Hvad EU-Organisationer Faktisk Har Brug For
Finansielle identifikatorer: IBAN (International Bank Account Number) forekommer i næsten hvert EU-forretningsdokument, der involverer betalinger, overførsler, fakturering og løn. IBAN-formater varierer fra land til land, men følger en international standard (ISO 13616). Presidio har ingen standard IBAN-genkender.
Et tysk fintech, der behandler kundens betalingsoptegnelser, behandler IBAN-numre i hvert transaktionsdokument. Uden IBAN-genkendelse behandles disse dokumenter med kreditkortdetektion aktiv (detektering af kortnumre), men IBAN-felter (den primære EU-betalingsidentifikator) ignoreres helt.
Nationale skatteidentifikatorer:
- Tysk Steueridentifikationsnummer: 11-cifret numerisk
- Fransk NIR (Numéro d'Inscription au Répertoire): 13-tegn alfanumerisk
- Italiensk Codice Fiscale: 16-tegn alfanumerisk med strukturel validering
- Spansk NIF/NIE: 9-tegn med bogstavsuffix/præfiks
- Hollandsk BSN: 9-cifret med 11-bevis validering
Ingen af disse er i Presidios standard enhedsbibliotek. En EU-lønningsprocessor, der håndterer medarbejderdokumenter fra flere medlemslande, er effektivt blind over for deres mest følsomme finansielle identifikatorer.
Nationale sundhedsidentifikatorer:
- UK NHS-nummer: 10-cifret med modulus-11 kontrol
- Fransk Numéro de Sécurité Sociale (NIR): Tjener også som sundheds-ID
- Tysk Krankenkassennummer: Alfanumerisk, forsikringsspecifik
- Italiensk Codice Fiscale: Bruges også som sundheds-ID
- Hollandsk BSN: Bruges også til sundhedsforsikring
Sundhedsorganisationer i hele EU har brug for disse identifikatorer til HIPAA-ækvivalent beskyttelse af sundhedsdata. Presidio leverer UK NHS-nummeret, men mangler de kontinentaleuropæiske sundheds-ID'er.
EU-kørekortsformater: Presidio har amerikanske kørekortsgenkendere (stats-specifikke). EU-kørekortsformater er standardiseret under direktiv 2006/126/EC, men varierer fra medlemsstat til medlemsstat i deres alfanumeriske struktur. Ingen EU-kørekortsgenkendere i Presidios standarder.
MOMS-registreringsnumre: EU MOMS-numre forekommer i hver forretnings-til-forretnings transaktion. Format: landekode (2 bogstaver) + 8-12 alfanumeriske cifre. Presidio har ingen MOMS-nummer genkender. For EU-virksomheder, der deler fakturaer, kontrakter og kommercielle dokumenter, er MOMS-numre identifikatorer, der linker til registrerede erhvervsenheder og deres direktører.
EU-pasformater: Amerikansk pasgenkendelse i Presidio, men EU-pasformater (især formatet for den maskinlæselige zone) er ikke dækket.
Ingeniøromkostninger ved udvikling af brugerdefinerede genkendere
Når EU-organisationer implementerer Presidio og opdager dækningens kløft, er svaret typisk udvikling af brugerdefinerede genkendere. Omkostningen:
Per genkender udviklingstid:
- Undersøg identifikatorformatet: 1-2 timer
- Skriv PatternRecognizer Python-klasse: 2-4 timer
- Implementer regex med valideringslogik: 2-4 timer
- Konfigurer kontekstord for præcisionsforbedring: 1-2 timer
- Skriv tests: 2-3 timer
- Integrer og test i implementering: 1-2 timer
Per genkender: 9-17 timer.
For et tysk fintech, der har brug for IBAN + Steuer-ID + EU-kørekort + tysk MOMS + IBAN:
- 4 brugerdefinerede genkendere × 13 timers gennemsnit = 52 ingeniørtimer
- Til €100/time: €5,200 i udvikling af brugerdefinerede genkendere
Plus løbende vedligeholdelse, efterhånden som formater ændrer sig, nye testtilfælde opstår, og Presidio API-opdateringer kræver ændringer i genkenderne.
Samlede omkostninger for EU GDPR-dækning oven på Presidio: €5,200+ initial + løbende vedligeholdelse
Alternativet: Administrerede Enhedsbiblioteker
anonym.legal udvider Presidio-grundlaget med 285+ enhedstyper vedligeholdt af udviklingsteamet - inklusive de EU-specifikke identifikatorer, som Presidios standarder mangler:
Dækningshøjdepunkter ud over Presidio-standarder:
- IBAN (alle EU-medlemsstatsformater)
- EU-medlemsstats skatteidentifikatorer (inklusive Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL og andre)
- EU nationale sundhedsidentifikatorer
- MOMS-numre (EU-format)
- EU-kørekortsformater
- Europæiske pasformater
- Alle 48 understøttede sprog enhedsversioner
Vedligeholdelse: Opdateringer af enhedsbiblioteket pushes som en del af den administrerede service. Når Tyskland introducerer et nyt skatteidentifikatorformat, får brugerne genkenderen uden at indsende en pull request.
Brugerdefineret udvidelse: For organisationsspecifikke identifikatorer, der ikke er i biblioteket, giver den brugerdefinerede enhedbygger mulighed for at tilføje mønstre uden Python-kode.
Det Tyske Fintech Eksempel
Et tysk fintech har brug for at detektere IBAN'er, BIC'er, tyske skatte-ID'er (Steuer-ID) og tyske handelsregistreringsnumre (Handelsregisternummer) i kundedokumenter.
Presidio standard detektionsrate for disse 4 enhedstyper: 0%
Ikke lav præcision, ikke falske positiver - nul detektioner. Ingen af de 4 enhedstyper vises i Presidios standard enhedsbibliotek.
Skrive brugerdefinerede genkendere: 4 genkendere × 13 timer = 52 timer = €5,200 til ingeniørpriser.
Brug af administreret enhedsbibliotek med alle 4 dækket: €180/år (Professionel plan).
Omkostningerne for at opnå GDPR-kompatibel detektion af disse tyske finansielle identifikatorer:
- Presidio-ruten: €5,200 ingeniør + Presidio driftsomkostninger
- Administreret service ruten: €180/år, der detekterer alle 4 ud af boksen
Kløften er 28x i det første år. For hvert driftsår tilføjer ingeniørtid til vedligeholdelse af brugerdefinerede genkendere til Presidio-omkostningerne, mens omkostningerne til den administrerede service forbliver flade.
Konklusion
Presidios ~40 standardgenkendere tjener amerikansk-centrerede brugssager godt. For EU-implementeringer, der kræver GDPR-overholdelse på tværs af medlemsstats-specifikke identifikatorer, er dækningen ud af boksen utilstrækkelig. Kløften udfyldes enten gennem udvikling af brugerdefinerede genkendere (dyre, tidskrævende) eller en administreret service, der opretholder EU-enhedsdækning som en del af abonnementet.
For EU-organisationer, hvor overholdelse er ikke-forhandlingsbar, og ingeniørressourcer er begrænsede, eliminerer den administrerede services forudbyggede EU-enhedsbibliotek et 50+ timers brugerdefineret udviklingsprojekt før anonymisering af første dokument.
Kilder: