Det US-Centrerede PII Værktøjsproblem
De fleste PII-detekteringsværktøjer blev bygget i USA til amerikanske dataformater. Social Security Number — 9 cifre i AAA-BB-CCCC format, med dokumenterede områdenumre, gruppenumre og serienumre — var det primære designmål. Værktøjer, der er bygget omkring SSN-detektion, opdager pålideligt SSN'er. De kan også opdage telefonnumre, e-mailadresser og amerikanske kørekortsformater. De overser systematisk de identifikatorformater, der bruges i alle andre lande.
GDPR anerkender ikke US-centrering som en overholdelsesundtagelse. En tysk Steuer-ID (Steuerliche Identifikationsnummer) er et 11-cifret skatteidentifikationsnummer udstedt af Bundeszentralamt für Steuern, med en specifik kontrolsum-algoritme valideret mod et kontrolsumciffer. Den identificerer tyske borgere lige så personligt som en SSN identificerer amerikanere. GDPR Artikel 4 definerer personoplysninger som "enhver information, der vedrører en identificeret eller identificerbar fysisk person" — en Steuer-ID er personoplysninger under GDPR, uanset om dit PII-værktøj kender formatet.
GDPR-bøder er blevet udstedt for EU-landsspecifik PII-eksponering i datasystemer, der behandlede EU-borgeres data ved hjælp af værktøjer, der kun var konfigureret til amerikanske formater. Overholdelseskløften er ikke teoretisk — den har medført håndhævelsesforanstaltninger.
Det Europæiske Identifikatorlandskab
Omfanget af den europæiske identifikator dækning:
Tyskland: Steuer-ID (11-cifret, kontrolsum), Sozialversicherungsnummer (12-cifret, strukturelt format), Reisepass (10-cifret pas med specifikke udstedelsesmyndighedskoder)
Frankrig: NIR/Numero de Securite Sociale (15 cifre, der koder køn [1], fødselsår [2], fødselsmåned [2], afdeling [2], kommune [3], registreringsnummer [3], kontrolnøgle [2]), Carte Vitale (kort med 15-cifret NIR), SIRET (14-cifret virksomhedsidentifikator), SIREN (9-cifret)
Sverige: Personnummer (10-cifret, format YYMMDD-XXXX med de sidste to cifre, der identificerer fødselsamt i ældre numre), Samordningsnummer (koordineringsnummer for ikke-bosiddende, lignende format med dag + 60)
Norge: Fodselsnummer (11-cifret, format DDMMYYNNNKK med køn i midtercifre), D-nummer (koordineringsnummer, dag + 40)
Brasilien: CPF (Cadastro de Pessoas Fisicas, 11-cifret med to kontrolcifre), CNPJ (14-cifret virksomhedsidentifikator)
Indien: Aadhaar (12-cifret biometrisk identitet, med Verhoeff-algoritme kontrolciffer), PAN (10-tegn alfanumerisk for indkomstskat)
UAE: Emirates ID (15-cifret: 784-fødselsår-sekvens-kontrol)
En global HR-manager, der behandler løndata for medarbejdere i 12 lande, har brug for et værktøj, der opdager alle 12 landes nationale ID-formater i et enkelt forsøg — uden at konfigurere 12 separate landespecifikke værktøjer eller vedligeholde 12 separate regex-biblioteker.
Den 285+ Enhedstype Arkitektur
Den 285+ enhedstypebibliotek dækker det fulde EU-medlemsstats identifikatorsæt, store APAC-identifikatorer (Aadhaar, PAN, CPF, CNPJ, Emirates ID, Thai statsborger ID) og amerikanske identifikatorer (SSN, EIN, kørekort efter stat) i en enkelt detektionsmotor. Biblioteket vedligeholdes og opdateres, efterhånden som landespecifikke formater udvikler sig.
Kilder: