Das Problem der globalen Identifikatorfragmentierung
Eine Marktplatzplattform mit Verkäufern in 45 Ländern verarbeitet Onboarding-Dokumente, die je nach Herkunftsland des Verkäufers völlig unterschiedlich aussehen. Ein brasilianischer Verkäufer reicht einen CPF (Cadastro de Pessoas Físicas) ein – eine 11-stellige Steuer-ID mit zwei Prüfziffern, die mit einem bestimmten Gewichtungsalgorithmus berechnet werden. Ein indischer Verkäufer stellt einen PAN (Permanent Account Number) zur Verfügung – ein 10-stelliges alphanumerisches Format, das Buchstaben und Ziffern in einem bestimmten Positionsmuster kombiniert. Ein deutscher Verkäufer gibt eine Steuer-ID (11-stellig mit Luhn-Prüfziffer) an. Ein niederländischer Verkäufer reicht eine BSN (Burger Service Nummer, 9 Ziffern mit Mod-11-Validierung) ein.
Jedes Format hat unterschiedliche Längen, Strukturen und Validierungsalgorithmen. Ein einzelnes Regex, das für ein Format entworfen wurde, passt nicht zu den anderen. Ein generisches "10-12-stelliges numerisches Zeichenfolgen"-Muster produziert prohibitive falsch-positive Raten bei finanziellen Dokumenten, die Preise, Mengen, Daten und Referenznummern enthalten.
Die Compliance-Verpflichtung unterscheidet nicht nach Ländern. Die DSGVO deckt die Daten der EU-Verkäufer ab. LGPD deckt die Daten des brasilianischen Verkäufers ab. Das DPDP-Gesetz deckt die Daten des indischen Verkäufers ab. Jeder regulatorische Rahmen erfordert einen angemessenen Schutz der persönlichen Daten, die von diesem Rahmen abgedeckt sind – und "angemessen" bedeutet, dass der Identifikator erkannt und geschützt wurde, nicht nur, dass ein Erkennungsversuch unternommen wurde.
Die 40-Identifikator-Lücke
Die meisten Unternehmens-PII-Erkennungstools werden mit Erkennern für etwa 40 gängige Identifikatortypen ausgeliefert. Diese umfassen typischerweise:
- US-Sozialversicherungsnummer
- US-Passformat
- US-Führerschein (bundesstaatsspezifisch)
- Generische Kreditkartenformate (Luhn-Validierung)
- E-Mail-Adressen
- Telefonnummern (NANP-Format)
- IP-Adressen
Tools auf diesem Abdeckungsniveau erfüllen die Compliance-Anforderungen von englischsprachigen nordamerikanischen Unternehmen recht gut. Sie decken jedoch nicht die Identifikatorenlandschaft von Organisationen ab, die global tätig sind.
Die Lücke zwischen 40 Identifikatoren und globaler Compliance ist erheblich:
Südamerikanische Identifikatoren: Brasilianischer CPF (einzelne Person) und CNPJ (Unternehmen) erfordern eine Prüfziffervalidierung, die spezifisch für das Format der brasilianischen Finanzbehörde ist. Der argentinische CUIT folgt einem anderen gewichteten Summenalgorithmus. Der kolumbianische NIT verwendet eine weitere Validierungsmethode.
Asiatische Identifikatoren: Indischer PAN, Aadhaar (12-stellige biometrische ID), indische GSTIN (GST-Identifikation) und Wähler-ID haben jeweils unterschiedliche Formate. Japanische My Number (12-stellige nationale ID), südkoreanische Einwohnerregistrierungsnummer und chinesische nationale ID (18 Zeichen mit Prüfziffer) erfordern jeweils separate Erkenner.
EU-Identifikatoren: Über die allgemein anerkannten Formate hinaus erfordert eine umfassende EU-Abdeckung IBAN-Formate für alle 27 EU-Mitgliedstaaten (jeweils mit länderspezifischer Länge und Format), sowie nationale ID-Formate für jeden Mitgliedstaat (deutsche Steuer-ID, französische NIR, niederländische BSN, polnische PESEL, schwedische Personnummer und mehr).
Was 260+ Entitätstypen tatsächlich abdecken
Eine umfassende Entitätsbibliothek mit 260+ Typen deckt ab:
- Alle nationalen Identifikatoren der 27 EU-Mitgliedstaaten (einschließlich weniger abgedeckter: slowenische EMŠO, kroatische OIB, bulgarische EGN, rumänische CNP)
- Alle EU-IBAN-Formate (27 länderspezifische Formate mit Validierung)
- Wichtige südamerikanische Identifikatoren (Brasilien CPF/CNPJ, Argentinien CUIT, Kolumbien NIT)
- Wichtige asiatische Identifikatoren (Indien PAN/Aadhaar/GSTIN, Japan My Number, Korea RRN)
- UK-spezifische Post-Brexit-Identifikatoren (UK NI Number, NHS Number, NINO-Varianten)
- Medizinische Identifikatoren über Jurisdiktionen hinweg (US NPI, DEA-Nummern, NHS-Nummern, Krankenhaus-MRN-Formate)
- Finanzielle Identifikatoren (SWIFT-Codes, BIC-Formate, verschiedene Kontonummernmuster)
Für einen in London ansässigen Marktplatz, der Verkäufer aus 45 Ländern bedient, bedeutet eine Abdeckung von 260+ Entitäten, dass eine einzige Bereitstellung die Identifizierung und den Schutz der persönlichen Daten der Verkäufer über alle Jurisdiktionen hinweg abwickelt – ohne separate regionale Werkzeuge, separate Verarbeitungs-Pipelines oder manuelle Anreicherung für die nationalen Identifikator-Typen, die ein 40-Erkenner-Tool verpasst.
Die Compliance-Haltung ändert sich von "wir schützen gängige Identifikatoren" zu "wir schützen die Identifikatoren, die in unseren tatsächlichen Daten vorhanden sind." Für globale Operationen ist dieser Unterschied der Unterschied zwischen teilweiser Compliance und echtem Schutz.
Quellen: