Global PII: SSN, CPF, Aadhaar och mer
Problemet med USA-centrerade PII-verktyg
De flesta PII-verktyg byggdes i USA. De riktar in sig på amerikanska dataformat. Social Security Number har nio siffror i formatet AAA-BB-CCCC. Dess area-, grupp- och seriesegment följer dokumenterade regler. USA-fokuserade verktyg fångar det bra. De detekterar också amerikanska telefonnummer, e-postadresser och körkort. De missar varje nationell identifierare som används utanför USA.
GDPR tillåter inget undantag för USA-only. Ta det tyska Steuer-ID. Det är ett 11-siffrigt skatte-ID. Bundeszentralamt für Steuern utfärdar det. Dess sista siffra är en kontrollsumma. Det identifierar en tysk invånare precis som ett SSN identifierar en amerikan. GDPR Artikel 4 täcker "all information som rör en identifierad eller identifierbar fysisk person". Ett Steuer-ID uppfyller den definitionen. Det är personuppgifter. Det gäller oavsett om ditt verktyg känner till formatet.
GDPR-böter har följt på exponering av EU-specifik PII i system som använder USA-only-verktyg. Efterlevnadsgapet är verkligt. Verkställighetsåtgärder har följt. Se vår GDPR-efterlevnadsguide för sammanhang.
Det europeiska identifierarlandskapet
Täckningsgapet är stort. Här är en lands-för-lands-genomgång.
Tyskland: Steuer-ID — 11 siffror, kontrollsummevaliderat. Sozialversicherungsnummer — 12 fält, strukturerat. Reisepass — 10 tecken med myndighetskoder.
Frankrike: NIR är det nationella socialförsäkrings-ID:t. Det har 15 siffror. De kodar kön, födelseår, födelsmånad, departement, kommun och en kontrollnyckel. SIRET har 14 siffror. SIREN har nio.
Sverige: Personnummer använder formatet YYMMDD-XXXX. Samordningsnummer täcker ej-folkbokförda. Dagvärdet förskjuts med 60.
Norge: Fødselsnummer har 11 värden i formatet DDMMYYNNNKK. Kön kodas i mittgruppen. D-nummer förskjuter dagvärdet med 40.
Brasilien: CPF — Cadastro de Pessoas Físicas — har 11 siffror med två kontrollvärden. CNPJ är det 14-siffriga företags-ID:t.
Indien: Aadhaar är ett 12-siffrigt biometriskt ID. Det använder en Verhoeff-kontroll. PAN är ett 10-siffrigt skatte-ID med bokstäver och siffror.
UAE: Emirates ID har 15 siffror i formatet 784-födelseår-sekvens-kontroll.
Ett globalt HR-team som täcker 12 länder behöver ett verktyg. Det måste hantera alla 12 nationella ID-format i ett enda genomgång. Att underhålla separata regex-bibliotek per land är inte genomförbart.
Arkitekturen med 285+ entitetstyper
Biblioteket med 285+ entitetstyper täcker alla EU-medlemsstaters format. Det täcker också stora APAC-ID:n. Dessa inkluderar Aadhaar, PAN, CPF, CNPJ, Emirates ID och thaiskt medborgar-ID. Amerikanska format — SSN, EIN, delstatliga körkort — ingår också. En motor hanterar dem alla. Biblioteket uppdateras när format ändras.
Detta är gapet de flesta verktyg lämnar öppet. Se entitetsreferensen för att granska vad som täcks. För API-prissättning efter volym, besök prissättning.