Det USASentrerte PII-verktøyproblemet
De fleste PII-deteksjonsverktøy ble bygget i USA for amerikanske dataformater. Sosial sikkerhetsnummer — 9 sifre i AAA-BB-CCCC-format, med dokumenterte områdenumre, gruppenummer og serienummer — var det primære designmålet. Verktøy bygget rundt SSN-deteksjon oppdager pålitelig SSN-er. De kan også oppdage telefonnumre, e-postadresser og amerikanske førerkortformater. De overser systematisk identifikatorformater som brukes i alle andre land.
GDPR anerkjenner ikke USAsentriskhet som en unntaksgrunn for overholdelse. En tysk Steuer-ID (Steuerliche Identifikationsnummer) er et 11-sifret skattenummer utstedt av Bundeszentralamt für Steuern, med en spesifikk sjekksum-algoritme validert mot en sjekksum-siffer. Den identifiserer tyske innbyggere like personlig som en SSN identifiserer amerikanere. GDPR Artikkel 4 definerer personopplysninger som "enhver informasjon som gjelder en identifisert eller identifiserbar fysisk person" — en Steuer-ID er personopplysninger under GDPR uavhengig av om ditt PII-verktøy kjenner formatet.
GDPR-bøter har blitt utstedt for EU-landsspesifikke PII-eksponeringer i datasystemer som behandlet data fra EU-borgere ved hjelp av verktøy konfigurert kun for amerikanske formater. Overholdelsesgapet er ikke teoretisk — det har resultert i håndhevelsesaksjoner.
Det Europeiske Identifikatorlandskapet
Omfanget av det europeiske identifikatordekning-gapet:
Tyskland: Steuer-ID (11-sifret, sjekksum), Sozialversicherungsnummer (12-sifret, strukturelt format), Reisepass (10-sifret pass med spesifikke utstedende myndighetskoder)
Frankrike: NIR/Numero de Securite Sociale (15 sifre som koder kjønn [1], fødselsår [2], fødselsmåned [2], departement [2], kommune [3], registreringsnummer [3], sjekk-nøkkel [2]), Carte Vitale (kort med 15-sifret NIR), SIRET (14-sifret forretningsidentifikator), SIREN (9-sifret)
Sverige: Personnummer (10-sifret, format YYMMDD-XXXX med de to siste sifrene som identifiserer fødselsfylke i eldre numre), Samordningsnummer (koordinasjonsnummer for ikke-residenter, lignende format med dag + 60)
Norge: Fodselsnummer (11-sifret, format DDMMYYNNNKK med kjønn i midterste sifre), D-nummer (koordinasjonsnummer, dag + 40)
Brasil: CPF (Cadastro de Pessoas Fisicas, 11-sifret med to sjekksiffer), CNPJ (14-sifret forretningsidentifikator)
India: Aadhaar (12-sifret biometrisk identitet, med Verhoeff-algoritme sjekksiffer), PAN (10-tegn alfanumerisk for inntektsskatt)
UAE: Emirates ID (15-sifret: 784-fødselsår-sekvens-sjekk)
En global HR-leder som behandler lønnsdata for ansatte i 12 land trenger et verktøy som oppdager alle 12 lands nasjonale ID-formater i ett enkelt forsøk — uten å konfigurere 12 separate lands spesifikke verktøy eller opprettholde 12 separate regex-biblioteker.
Den 285+ Enhetstype Arkitekturen
Den 285+ enhetstype-biblioteket dekker hele EU-medlemsstatens identifikatorsett, store APAC-identifikatorer (Aadhaar, PAN, CPF, CNPJ, Emirates ID, Thai statsborger ID), og amerikanske identifikatorer (SSN, EIN, førerkort etter stat) i en enkelt deteksjonsmotor. Biblioteket vedlikeholdes og oppdateres etter hvert som lands spesifikke formater utvikler seg.
Kilder: