Tilbage til BlogGDPR & Overholdelse

Ét værktøj, 45 lande: Hvorfor 260+ enhedstyper er den...

Brasiliansk CPF har kontrolcifre. Indisk PAN er 10-tegn alfanumerisk. EU IBAN'er varierer fra land til land.

March 25, 20267 min læsning
global PII compliance260 entity typesBrazilian CPFIndian PANIBAN formats

Problemet med global identifikatorfragmentering

En markedspladsplatform med sælgere i 45 lande behandler onboarding-dokumenter, der ser helt forskellige ud afhængigt af sælgerens oprindelsesland. En brasiliansk sælger indsender et CPF (Cadastro de Pessoas Físicas) — et 11-cifret skatte-ID med to kontrolcifre beregnet ved hjælp af en specifik vægtalgoritme. En indisk sælger leverer et PAN (Permanent Account Number) — et 10-tegn alfanumerisk format, der kombinerer bogstaver og cifre i et specifikt positionsmønster. En tysk sælger leverer en Steuer-ID (11-cifret med Luhn kontrolsum). En hollandsk sælger leverer et BSN (Burger Service Nummer, 9 cifre med mod-11 validering).

Hvert format har forskellige længder, strukturer og valideringsalgoritmer. En enkelt regex designet til ét format matcher ikke de andre. Et generisk "10-12 cifret numerisk streng" mønster producerer prohibitive falske positive rater på tværs af finansielle dokumenter, der indeholder priser, mængder, datoer og referencenumre.

Overholdelsesforpligtelsen differentierer ikke efter land. GDPR dækker EU-sælgernes data. LGPD dækker de brasilianske sælgeres data. DPDP-loven dækker de indiske sælgeres data. Hver reguleringsramme kræver passende beskyttelse af de personoplysninger, der er dækket af den ramme — og "passende" betyder, at identifikatoren blev opdaget og beskyttet, ikke bare at et forsøg på opdagelse blev gjort.

Kløften med 40 identifikatorer

De fleste virksomheders PII-detekteringsværktøjer leveres med genkendere til cirka 40 almindelige identifikatortyper. Disse inkluderer typisk:

  • US Social Security Number
  • US pasformat
  • US kørekort (stats-specifik)
  • Generiske kreditkortformater (Luhn validering)
  • E-mailadresser
  • Telefonnummer (NANP format)
  • IP-adresser

Værktøjer på dette dækningsniveau opfylder engelsktalende nordamerikanske overholdelseskrav rimeligt godt. De dækker ikke identifikatorlandskabet for organisationer, der opererer globalt.

Kløften mellem 40 identifikatorer og global overholdelse er betydelig:

Sydamerikanske identifikatorer: Brasiliansk CPF (individuel) og CNPJ (virksomhed) kræver kontrolsumvalidering specifik for Brasils skattemyndighedsformat. Argentinsk CUIT følger en anden vægtet-sum algoritme. Colombiansk NIT bruger endnu en valideringsmetode.

Asiatiske identifikatorer: Indisk PAN, Aadhaar (12-cifret biometrisk ID), indisk GSTIN (GST identifikation) og Voter ID har hver deres distinkte formater. Japansk My Number (12-cifret national ID), sydkoreansk Resident Registration Number og kinesisk national ID (18-tegn med kontrolciffer) kræver alle separate genkendere.

EU-identifikatorer: Udover de almindeligt anerkendte formater kræver omfattende EU-dækning IBAN-formater for alle 27 EU-medlemslande (hver med landespecifik længde og format), plus nationale ID-formater for hvert medlemsland (tysk Steuer-ID, fransk NIR, hollandsk BSN, polsk PESEL, svensk Personnummer og mere).

Hvad 260+ enhedstyper faktisk dækker

Et omfattende enhedsbibliotek med 260+ typer dækker:

  • Alle 27 EU-medlemsstaters nationale identifikatorer (inklusive mindre dækkede: slovensk EMŠO, kroatisk OIB, bulgarsk EGN, rumænsk CNP)
  • Alle EU IBAN-formater (27 landespecifikke formater med validering)
  • Store sydamerikanske identifikatorer (Brasilien CPF/CNPJ, Argentina CUIT, Colombia NIT)
  • Store asiatiske identifikatorer (Indien PAN/Aadhaar/GSTIN, Japan My Number, Korea RRN)
  • UK-specifikke post-Brexit identifikatorer (UK NI Number, NHS Number, NINO varianter)
  • Medicinske identifikatorer på tværs af jurisdiktioner (US NPI, DEA numre, NHS numre, hospital MRN formater)
  • Finansielle identifikatorer (SWIFT koder, BIC formater, forskellige kontonummer mønstre)

For en London-baseret markedsplads, der betjener sælgere fra 45 lande, betyder 260+ enhedsdækning, at en enkelt implementering håndterer identifikationen og beskyttelsen af sælgerens personoplysninger på tværs af alle jurisdiktioner — uden at kræve separate regionale værktøjer, separate behandlingspipelines eller manuel berigelse for de nationale identifikatortyper, som et 40-genkender værktøj overser.

Overholdelsespositionen ændrer sig fra "vi beskytter almindelige identifikatorer" til "vi beskytter de identifikatorer, der er til stede i vores faktiske data." For globale operationer er den forskel forskellen mellem delvis overholdelse og ægte beskyttelse.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.