Tillbaka till BloggenGDPR & Efterlevnad

Vad Presidio Missar: De 220+ Entitetstyper som är Avgörande för GDPR-Kompatibel PII-Upptäckte

Presidio levereras med ~40 standardentitetsigenkännare fokuserade på amerikanska identifierare. Europeiska organisationer behöver IBAN, Codice Fiscale, Steueridentifikationsnummer, EU-körkortformat och nationella hälsoidentifierare — allt saknas i Presidios standarder.

March 7, 20267 min läsning
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Vad Presidio Missar: De 220+ Entitetstyper som är Avgörande för GDPR-Kompatibel PII-Upptäckte

Microsoft Presidio levereras med cirka 40 standardentitetsigenkännare. För amerikanska implementeringar som hanterar amerikanska dokument täcker detta de viktiga kategorierna: SSN, amerikanska pass, amerikanska körkort, kreditkort, e-postadresser, telefonnummer och personnamn.

För EU-implementeringar är täckningsgapet betydande. GDPR gäller för all EU-personlig data oavsett nationalitet. EU-organisationer som behandlar sina egna medborgares data behöver igenkännare som Presidio inte tillhandahåller direkt.

Den Standard Presidio Entitetsbibliotek

Presidios standardigenkännare inkluderar:

Amerikanska identifierare:

  • Amerikanskt personnummer (SSN)
  • Amerikanskt passnummer
  • Amerikanskt körkortnummer (flera statliga format)
  • Amerikanskt bankkontonummer
  • Amerikanskt ITIN (Individual Taxpayer Identification Number)
  • Amerikanskt medicinskt licensnummer

Universella identifierare:

  • E-postadress
  • Telefonnummer (amerikanskt format prioriterat)
  • IP-adress
  • Kreditkortsnummer (Luhn-algoritm)
  • Kryptovaluta plånboksadress
  • URL

Generiska textentiteter:

  • PERSON (NER-baserad)
  • PLATS (NER-baserad)
  • ORGANISATION (NER-baserad)
  • DATUM_TID (NER-baserad)

Begränsad internationell täckning:

  • Brittiska NHS-nummer
  • Brittiska nationalförsäkringsnummer (NINO)
  • Finansiella enhetsidentifierare (några)

Totalt: ~40 igenkännare

Vad EU-Organisationer Egentligen Behöver

Finansiella identifierare: IBAN (International Bank Account Number) förekommer i praktiskt taget varje EU-affärsdokument som involverar betalningar, överföringar, fakturering och löner. IBAN-format varierar beroende på land men följer en internationell standard (ISO 13616). Presidio har ingen standard IBAN-igenkännare.

Ett tyskt fintech-företag som behandlar kundbetalningsregister bearbetar IBAN-nummer i varje transaktionsdokument. Utan IBAN-igenkänning behandlas dessa dokument med kreditkortsdetektering aktiv (detekterar kortnummer) men IBAN-fält (den primära EU-betalningsidentifieraren) ignoreras helt.

Nationella skatteidentifierare:

  • Tysk Steueridentifikationsnummer: 11-siffrigt numeriskt
  • Fransk NIR (Numéro d'Inscription au Répertoire): 13-teckens alfanumeriskt
  • Italiensk Codice Fiscale: 16-teckens alfanumeriskt med strukturell validering
  • Spansk NIF/NIE: 9-teckens med bokstavsuffix/prefix
  • Holländsk BSN: 9-siffrigt med 11-bevisvalidering

Ingen av dessa finns i Presidios standardentitetsbibliotek. En EU-löneprocessor som hanterar anställdas dokument från flera medlemsstater är effektivt blind för deras mest känsliga finansiella identifierare.

Nationella hälsoidentifierare:

  • Brittiska NHS-nummer: 10-siffrigt med modulus-11-kontroll
  • Fransk Numéro de Sécurité Sociale (NIR): Tjänar också som hälso-ID
  • Tysk Krankenkassennummer: Alfanumerisk, försäkringsspecifik
  • Italiensk Codice Fiscale: Används också som hälso-ID
  • Nederländska BSN: Används också för sjukförsäkring

Vårdgivare över hela EU behöver dessa identifierare för HIPAA-motsvarande skydd av hälsoinformation. Presidio tillhandahåller det brittiska NHS-numret men missar de kontinentala europeiska hälso-ID:erna.

EU-körkortformat: Presidio har amerikanska körkortigenkännare (statsspecifika). EU-körkortformat är standardiserade enligt direktiv 2006/126/EG men varierar beroende på medlemsstat i sin alfanumeriska struktur. Inga EU-körkortigenkännare i Presidios standarder.

Momsregistreringsnummer: EU-momsnummer förekommer i varje affär-till-affärstransaktion. Format: landskod (2 bokstäver) + 8-12 alfanumeriska siffror. Presidio har ingen momsnummerigenkännare. För EU-företag som delar fakturor, kontrakt och kommersiella dokument är momsnummer identifierare som kopplar till registrerade företagsenheter och deras direktörer.

EU-passformat: Amerikansk passigenkänning i Presidio, men EU-passformat (särskilt formatet för maskinläsbara zoner) täcks inte.

Ingenjörskostnaden för Utveckling av Anpassade Igenkännare

När EU-organisationer implementerar Presidio och upptäcker täckningsgapet för entiteter, är svaret typiskt utveckling av anpassade igenkännare. Kostnaden:

Per igenkännare utvecklingstid:

  • Forskning om identifierarformat: 1-2 timmar
  • Skriva PatternRecognizer Python-klass: 2-4 timmar
  • Implementera regex med valideringslogik: 2-4 timmar
  • Konfigurera kontextord för precisionförbättring: 1-2 timmar
  • Skriva tester: 2-3 timmar
  • Integrera och testa i implementering: 1-2 timmar

Per igenkännare: 9-17 timmar.

För ett tyskt fintech-företag som behöver IBAN + Steuer-ID + EU-körkort + tysk moms + IBAN:

  • 4 anpassade igenkännare × 13 timmar i genomsnitt = 52 ingenjörstimmar
  • Vid €100/timme: €5,200 i utveckling av anpassade igenkännare

Plus pågående underhåll när format ändras, nya testfall uppstår och Presidio API-uppdateringar kräver igenkännarmodifikationer.

Total kostnad för EU GDPR-täckning ovanpå Presidio: €5,200+ initial + pågående underhåll

Alternativet: Hanterade Entitetsbibliotek

anonym.legal utökar Presidio-grunden med 285+ entitetstyper som underhålls av utvecklingsteamet — inklusive de EU-specifika identifierare som Presidios standarder missar:

Täckningshöjdpunkter bortom Presidios standarder:

  • IBAN (alla EU-medlemsstatsformat)
  • EU-medlemsstats skatteidentifierare (inklusive Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL och andra)
  • EU-nationella hälsoidentifierare
  • Momsnummer (EU-format)
  • EU-körkortformat
  • Europeiska passformat
  • Alla 48 stödda språkvarianter av entiteter

Underhåll: Uppdateringar av entitetsbiblioteket pushas som en del av den hanterade tjänsten. När Tyskland introducerar ett nytt skatteidentifierarformat får användarna igenkännaren utan att behöva lämna in en pull request.

Anpassad utvidgning: För organisationsspecifika identifierare som inte finns i biblioteket tillåter den anpassade entitetsbyggaren att lägga till mönster utan Python-kod.

Det Tyska Fintech-exemplet

Ett tyskt fintech-företag behöver upptäcka IBAN, BIC, tyska skatte-ID (Steuer-ID) och tyska handelsregistreringsnummer (Handelsregisternummer) i kunddokument.

Presidio standarddetekteringsgrad för dessa 4 entitetstyper: 0%

Inte låg precision, inte falska positiva — noll detektioner. Ingen av de 4 entitetstyperna förekommer i Presidios standardentitetsbibliotek.

Skriva anpassade igenkännare: 4 igenkännare × 13 timmar = 52 timmar = €5,200 vid ingenjörspriser.

Använda hanterat entitetsbibliotek med alla 4 täckta: €180/år (Professionell plan).

Kostnad för att uppnå GDPR-kompatibel detektion av dessa tyska finansiella identifierare:

  • Presidio-rutt: €5,200 ingenjör + Presidios driftkostnader
  • Hanterad tjänstrutt: €180/år, detekterar alla 4 direkt

Gapet är 28x under det första året. För varje driftsår läggs ingenjörstid för underhåll av anpassade igenkännare till Presidio-kostnaden medan kostnaden för den hanterade tjänsten förblir konstant.

Slutsats

Presidios ~40 standardigenkännare tjänar amerikanska användningsfall väl. För EU-implementeringar som kräver GDPR-efterlevnad över medlemsstatspecifika identifierare är täckningen direkt otillräcklig. Gapet fylls antingen genom utveckling av anpassade igenkännare (dyrt, tidskrävande) eller en hanterad tjänst som upprätthåller EU-entitetstäckning som en del av prenumerationen.

För EU-organisationer där efterlevnad är icke-förhandlingsbar och ingenjörsresurser är begränsade, eliminerar den hanterade tjänstens förbyggda EU-entitetsbibliotek ett 50+ timmars anpassat utvecklingsprojekt innan anonymisering av första dokumentet.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.