Vad Presidio Missar: De 220+ Entitetstyper som är Avgörande för GDPR-Kompatibel PII-Upptäckte
Microsoft Presidio levereras med cirka 40 standardentitetsigenkännare. För amerikanska implementeringar som hanterar amerikanska dokument täcker detta de viktiga kategorierna: SSN, amerikanska pass, amerikanska körkort, kreditkort, e-postadresser, telefonnummer och personnamn.
För EU-implementeringar är täckningsgapet betydande. GDPR gäller för all EU-personlig data oavsett nationalitet. EU-organisationer som behandlar sina egna medborgares data behöver igenkännare som Presidio inte tillhandahåller direkt.
Den Standard Presidio Entitetsbibliotek
Presidios standardigenkännare inkluderar:
Amerikanska identifierare:
- Amerikanskt personnummer (SSN)
- Amerikanskt passnummer
- Amerikanskt körkortnummer (flera statliga format)
- Amerikanskt bankkontonummer
- Amerikanskt ITIN (Individual Taxpayer Identification Number)
- Amerikanskt medicinskt licensnummer
Universella identifierare:
- E-postadress
- Telefonnummer (amerikanskt format prioriterat)
- IP-adress
- Kreditkortsnummer (Luhn-algoritm)
- Kryptovaluta plånboksadress
- URL
Generiska textentiteter:
- PERSON (NER-baserad)
- PLATS (NER-baserad)
- ORGANISATION (NER-baserad)
- DATUM_TID (NER-baserad)
Begränsad internationell täckning:
- Brittiska NHS-nummer
- Brittiska nationalförsäkringsnummer (NINO)
- Finansiella enhetsidentifierare (några)
Totalt: ~40 igenkännare
Vad EU-Organisationer Egentligen Behöver
Finansiella identifierare: IBAN (International Bank Account Number) förekommer i praktiskt taget varje EU-affärsdokument som involverar betalningar, överföringar, fakturering och löner. IBAN-format varierar beroende på land men följer en internationell standard (ISO 13616). Presidio har ingen standard IBAN-igenkännare.
Ett tyskt fintech-företag som behandlar kundbetalningsregister bearbetar IBAN-nummer i varje transaktionsdokument. Utan IBAN-igenkänning behandlas dessa dokument med kreditkortsdetektering aktiv (detekterar kortnummer) men IBAN-fält (den primära EU-betalningsidentifieraren) ignoreras helt.
Nationella skatteidentifierare:
- Tysk Steueridentifikationsnummer: 11-siffrigt numeriskt
- Fransk NIR (Numéro d'Inscription au Répertoire): 13-teckens alfanumeriskt
- Italiensk Codice Fiscale: 16-teckens alfanumeriskt med strukturell validering
- Spansk NIF/NIE: 9-teckens med bokstavsuffix/prefix
- Holländsk BSN: 9-siffrigt med 11-bevisvalidering
Ingen av dessa finns i Presidios standardentitetsbibliotek. En EU-löneprocessor som hanterar anställdas dokument från flera medlemsstater är effektivt blind för deras mest känsliga finansiella identifierare.
Nationella hälsoidentifierare:
- Brittiska NHS-nummer: 10-siffrigt med modulus-11-kontroll
- Fransk Numéro de Sécurité Sociale (NIR): Tjänar också som hälso-ID
- Tysk Krankenkassennummer: Alfanumerisk, försäkringsspecifik
- Italiensk Codice Fiscale: Används också som hälso-ID
- Nederländska BSN: Används också för sjukförsäkring
Vårdgivare över hela EU behöver dessa identifierare för HIPAA-motsvarande skydd av hälsoinformation. Presidio tillhandahåller det brittiska NHS-numret men missar de kontinentala europeiska hälso-ID:erna.
EU-körkortformat: Presidio har amerikanska körkortigenkännare (statsspecifika). EU-körkortformat är standardiserade enligt direktiv 2006/126/EG men varierar beroende på medlemsstat i sin alfanumeriska struktur. Inga EU-körkortigenkännare i Presidios standarder.
Momsregistreringsnummer: EU-momsnummer förekommer i varje affär-till-affärstransaktion. Format: landskod (2 bokstäver) + 8-12 alfanumeriska siffror. Presidio har ingen momsnummerigenkännare. För EU-företag som delar fakturor, kontrakt och kommersiella dokument är momsnummer identifierare som kopplar till registrerade företagsenheter och deras direktörer.
EU-passformat: Amerikansk passigenkänning i Presidio, men EU-passformat (särskilt formatet för maskinläsbara zoner) täcks inte.
Ingenjörskostnaden för Utveckling av Anpassade Igenkännare
När EU-organisationer implementerar Presidio och upptäcker täckningsgapet för entiteter, är svaret typiskt utveckling av anpassade igenkännare. Kostnaden:
Per igenkännare utvecklingstid:
- Forskning om identifierarformat: 1-2 timmar
- Skriva PatternRecognizer Python-klass: 2-4 timmar
- Implementera regex med valideringslogik: 2-4 timmar
- Konfigurera kontextord för precisionförbättring: 1-2 timmar
- Skriva tester: 2-3 timmar
- Integrera och testa i implementering: 1-2 timmar
Per igenkännare: 9-17 timmar.
För ett tyskt fintech-företag som behöver IBAN + Steuer-ID + EU-körkort + tysk moms + IBAN:
- 4 anpassade igenkännare × 13 timmar i genomsnitt = 52 ingenjörstimmar
- Vid €100/timme: €5,200 i utveckling av anpassade igenkännare
Plus pågående underhåll när format ändras, nya testfall uppstår och Presidio API-uppdateringar kräver igenkännarmodifikationer.
Total kostnad för EU GDPR-täckning ovanpå Presidio: €5,200+ initial + pågående underhåll
Alternativet: Hanterade Entitetsbibliotek
anonym.legal utökar Presidio-grunden med 285+ entitetstyper som underhålls av utvecklingsteamet — inklusive de EU-specifika identifierare som Presidios standarder missar:
Täckningshöjdpunkter bortom Presidios standarder:
- IBAN (alla EU-medlemsstatsformat)
- EU-medlemsstats skatteidentifierare (inklusive Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL och andra)
- EU-nationella hälsoidentifierare
- Momsnummer (EU-format)
- EU-körkortformat
- Europeiska passformat
- Alla 48 stödda språkvarianter av entiteter
Underhåll: Uppdateringar av entitetsbiblioteket pushas som en del av den hanterade tjänsten. När Tyskland introducerar ett nytt skatteidentifierarformat får användarna igenkännaren utan att behöva lämna in en pull request.
Anpassad utvidgning: För organisationsspecifika identifierare som inte finns i biblioteket tillåter den anpassade entitetsbyggaren att lägga till mönster utan Python-kod.
Det Tyska Fintech-exemplet
Ett tyskt fintech-företag behöver upptäcka IBAN, BIC, tyska skatte-ID (Steuer-ID) och tyska handelsregistreringsnummer (Handelsregisternummer) i kunddokument.
Presidio standarddetekteringsgrad för dessa 4 entitetstyper: 0%
Inte låg precision, inte falska positiva — noll detektioner. Ingen av de 4 entitetstyperna förekommer i Presidios standardentitetsbibliotek.
Skriva anpassade igenkännare: 4 igenkännare × 13 timmar = 52 timmar = €5,200 vid ingenjörspriser.
Använda hanterat entitetsbibliotek med alla 4 täckta: €180/år (Professionell plan).
Kostnad för att uppnå GDPR-kompatibel detektion av dessa tyska finansiella identifierare:
- Presidio-rutt: €5,200 ingenjör + Presidios driftkostnader
- Hanterad tjänstrutt: €180/år, detekterar alla 4 direkt
Gapet är 28x under det första året. För varje driftsår läggs ingenjörstid för underhåll av anpassade igenkännare till Presidio-kostnaden medan kostnaden för den hanterade tjänsten förblir konstant.
Slutsats
Presidios ~40 standardigenkännare tjänar amerikanska användningsfall väl. För EU-implementeringar som kräver GDPR-efterlevnad över medlemsstatspecifika identifierare är täckningen direkt otillräcklig. Gapet fylls antingen genom utveckling av anpassade igenkännare (dyrt, tidskrävande) eller en hanterad tjänst som upprätthåller EU-entitetstäckning som en del av prenumerationen.
För EU-organisationer där efterlevnad är icke-förhandlingsbar och ingenjörsresurser är begränsade, eliminerar den hanterade tjänstens förbyggda EU-entitetsbibliotek ett 50+ timmars anpassat utvecklingsprojekt innan anonymisering av första dokumentet.
Källor: