Problemet med global identifikatorfragmentering
En markedspladsplatform med sælgere i 45 lande behandler onboarding-dokumenter, der ser helt forskellige ud afhængigt af sælgerens oprindelsesland. En brasiliansk sælger indsender et CPF (Cadastro de Pessoas Físicas) — et 11-cifret skatte-ID med to kontrolcifre beregnet ved hjælp af en specifik vægtalgoritme. En indisk sælger leverer et PAN (Permanent Account Number) — et 10-tegn alfanumerisk format, der kombinerer bogstaver og cifre i et specifikt positionsmønster. En tysk sælger leverer en Steuer-ID (11-cifret med Luhn kontrolsum). En hollandsk sælger leverer et BSN (Burger Service Nummer, 9 cifre med mod-11 validering).
Hvert format har forskellige længder, strukturer og valideringsalgoritmer. En enkelt regex designet til ét format matcher ikke de andre. Et generisk "10-12 cifret numerisk streng" mønster producerer prohibitive falske positive rater på tværs af finansielle dokumenter, der indeholder priser, mængder, datoer og referencenumre.
Overholdelsesforpligtelsen differentierer ikke efter land. GDPR dækker EU-sælgernes data. LGPD dækker de brasilianske sælgeres data. DPDP-loven dækker de indiske sælgeres data. Hver reguleringsramme kræver passende beskyttelse af de personoplysninger, der er dækket af den ramme — og "passende" betyder, at identifikatoren blev opdaget og beskyttet, ikke bare at et forsøg på opdagelse blev gjort.
Kløften med 40 identifikatorer
De fleste virksomheders PII-detekteringsværktøjer leveres med genkendere til cirka 40 almindelige identifikatortyper. Disse inkluderer typisk:
- US Social Security Number
- US pasformat
- US kørekort (stats-specifik)
- Generiske kreditkortformater (Luhn validering)
- E-mailadresser
- Telefonnummer (NANP format)
- IP-adresser
Værktøjer på dette dækningsniveau opfylder engelsktalende nordamerikanske overholdelseskrav rimeligt godt. De dækker ikke identifikatorlandskabet for organisationer, der opererer globalt.
Kløften mellem 40 identifikatorer og global overholdelse er betydelig:
Sydamerikanske identifikatorer: Brasiliansk CPF (individuel) og CNPJ (virksomhed) kræver kontrolsumvalidering specifik for Brasils skattemyndighedsformat. Argentinsk CUIT følger en anden vægtet-sum algoritme. Colombiansk NIT bruger endnu en valideringsmetode.
Asiatiske identifikatorer: Indisk PAN, Aadhaar (12-cifret biometrisk ID), indisk GSTIN (GST identifikation) og Voter ID har hver deres distinkte formater. Japansk My Number (12-cifret national ID), sydkoreansk Resident Registration Number og kinesisk national ID (18-tegn med kontrolciffer) kræver alle separate genkendere.
EU-identifikatorer: Udover de almindeligt anerkendte formater kræver omfattende EU-dækning IBAN-formater for alle 27 EU-medlemslande (hver med landespecifik længde og format), plus nationale ID-formater for hvert medlemsland (tysk Steuer-ID, fransk NIR, hollandsk BSN, polsk PESEL, svensk Personnummer og mere).
Hvad 260+ enhedstyper faktisk dækker
Et omfattende enhedsbibliotek med 260+ typer dækker:
- Alle 27 EU-medlemsstaters nationale identifikatorer (inklusive mindre dækkede: slovensk EMŠO, kroatisk OIB, bulgarsk EGN, rumænsk CNP)
- Alle EU IBAN-formater (27 landespecifikke formater med validering)
- Store sydamerikanske identifikatorer (Brasilien CPF/CNPJ, Argentina CUIT, Colombia NIT)
- Store asiatiske identifikatorer (Indien PAN/Aadhaar/GSTIN, Japan My Number, Korea RRN)
- UK-specifikke post-Brexit identifikatorer (UK NI Number, NHS Number, NINO varianter)
- Medicinske identifikatorer på tværs af jurisdiktioner (US NPI, DEA numre, NHS numre, hospital MRN formater)
- Finansielle identifikatorer (SWIFT koder, BIC formater, forskellige kontonummer mønstre)
For en London-baseret markedsplads, der betjener sælgere fra 45 lande, betyder 260+ enhedsdækning, at en enkelt implementering håndterer identifikationen og beskyttelsen af sælgerens personoplysninger på tværs af alle jurisdiktioner — uden at kræve separate regionale værktøjer, separate behandlingspipelines eller manuel berigelse for de nationale identifikatortyper, som et 40-genkender værktøj overser.
Overholdelsespositionen ændrer sig fra "vi beskytter almindelige identifikatorer" til "vi beskytter de identifikatorer, der er til stede i vores faktiske data." For globale operationer er den forskel forskellen mellem delvis overholdelse og ægte beskyttelse.
Kilder: