Das US-zentrierte PII-Tool-Problem
Die meisten PII-Erkennungstools wurden in den Vereinigten Staaten für US-Datenformate entwickelt. Die Sozialversicherungsnummer — 9 Ziffern im Format AAA-BB-CCCC, mit dokumentierten Bereichsnummern, Gruppenummern und Seriennummern — war das primäre Designziel. Tools, die auf die Erkennung von SSNs ausgerichtet sind, erkennen zuverlässig SSNs. Sie können auch Telefonnummern, E-Mail-Adressen und US-Führerscheinformate erkennen. Sie übersehen systematisch die Identifikatorformate, die in jedem anderen Land verwendet werden.
Die GDPR erkennt die US-Zentriertheit nicht als Ausnahme von der Compliance an. Eine deutsche Steuer-ID (Steuerliche Identifikationsnummer) ist eine 11-stellige Steueridentifikationsnummer, die vom Bundeszentralamt für Steuern ausgestellt wird, mit einem spezifischen Prüfziffernalgorithmus, der gegen eine Prüfziffer validiert wird. Sie identifiziert deutsche Einwohner so persönlich, wie eine SSN Amerikaner identifiziert. Artikel 4 der GDPR definiert personenbezogene Daten als "alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen" — eine Steuer-ID ist personenbezogene Daten gemäß der GDPR, unabhängig davon, ob Ihr PII-Tool das Format kennt.
GDPR-Strafen wurden für länderspezifische PII-Expositionen in Datensystemen verhängt, die die Daten von EU-Bewohnern mit Tools verarbeitet haben, die nur für US-Formate konfiguriert waren. Die Compliance-Lücke ist nicht theoretisch — sie hat Durchsetzungsmaßnahmen zur Folge gehabt.
Die europäische Identifikatorenlandschaft
Das Ausmaß der Lücke in der europäischen Identifikatorenabdeckung:
Deutschland: Steuer-ID (11-stellig, Prüfziffer), Sozialversicherungsnummer (12-stellig, strukturelles Format), Reisepass (10-stelliger Reisepass mit spezifischen Ausstellungsbehörden-Codes)
Frankreich: NIR/Numéro de Sécurité Sociale (15 Ziffern, die Geschlecht [1], Geburtsjahr [2], Geburtsmonat [2], Departement [2], Gemeinde [3], Registrierungsnummer [3], Prüfziffer [2] kodieren), Carte Vitale (Karte mit 15-stelligem NIR), SIRET (14-stellige Unternehmenskennung), SIREN (9-stellig)
Schweden: Personnummer (10-stellig, Format YYMMDD-XXXX mit den letzten zwei Ziffern, die das Geburtsland in älteren Nummern identifizieren), Samordningsnummer (Koordinationsnummer für Nichtansässige, ähnliches Format mit Tag + 60)
Norwegen: Fodselsnummer (11-stellig, Format DDMMYYNNNKK mit Geschlecht in den mittleren Ziffern), D-nummer (Koordinationsnummer, Tag + 40)
Brasilien: CPF (Cadastro de Pessoas Fisicas, 11-stellig mit zwei Prüfziffern), CNPJ (14-stellige Unternehmenskennung)
Indien: Aadhaar (12-stellige biometrische Identität, mit Verhoeff-Algorithmus-Prüfziffer), PAN (10-stellig alphanumerisch für die Einkommenssteuer)
VAE: Emirates ID (15-stellig: 784-Geburtsjahr-Sequenz-Prüfziffer)
Ein globaler HR-Manager, der Gehaltsdaten für Mitarbeiter in 12 Ländern verarbeitet, benötigt ein Tool, das alle 12 nationalen ID-Formate in einem einzigen Durchgang erkennt — ohne 12 separate länderspezifische Tools zu konfigurieren oder 12 separate Regex-Bibliotheken zu pflegen.
Die 285+ Entitätstyp-Architektur
Die Bibliothek mit über 285 Entitätstypen deckt das vollständige Identifikatorset der EU-Mitgliedstaaten, wichtige APAC-Identifikatoren (Aadhaar, PAN, CPF, CNPJ, Emirates ID, thailändische Bürger-ID) und US-Identifikatoren (SSN, EIN, Führerschein nach Bundesstaat) in einer einzigen Erkennungsmaschine ab. Die Bibliothek wird gepflegt und aktualisiert, während sich die länderspezifischen Formate weiterentwickeln.
Quellen: