Tillbaka till BloggenGDPR & Efterlevnad

Ett verktyg, 45 länder: Varför 260+ enhetstyper är...

Braziliansk CPF har kontrollsiffror. Indisk PAN är 10-teckens alfanumerisk. EU IBAN varierar beroende på land.

March 25, 20267 min läsning
global PII compliance260 entity typesBrazilian CPFIndian PANIBAN formats

Problemet med global identifierarfragmentering

En marknadsplatsplattform med säljare i 45 länder hanterar onboarding-dokument som ser helt olika ut beroende på säljarens ursprungsland. En brasiliansk säljare lämnar in en CPF (Cadastro de Pessoas Físicas) — ett 11-siffrigt skattenummer med två kontrollsiffror beräknade med en specifik viktad algoritm. En indisk säljare tillhandahåller en PAN (Permanent Account Number) — ett 10-teckens alfanumeriskt format som kombinerar bokstäver och siffror i ett specifikt positionsmönster. En tysk säljare tillhandahåller en Steuer-ID (11-siffror med Luhn-kontroll). En nederländsk säljare tillhandahåller en BSN (Burger Service Nummer, 9 siffror med mod-11 validering).

Varje format har olika längd, struktur och valideringsalgoritm. En enda regex designad för ett format matchar inte de andra. Ett generiskt "10-12 siffrigt numeriskt sträng"-mönster ger oacceptabelt höga falska positiva resultat över finansiella dokument som innehåller priser, kvantiteter, datum och referensnummer.

Efterlevnadsplikten gör ingen åtskillnad mellan länder. GDPR täcker EU-säljares data. LGPD täcker den brasilianska säljarens data. DPDP-lagen täcker den indiska säljarens data. Varje regleringsram kräver lämpligt skydd av den personliga data som omfattas av den ramen — och "lämpligt" innebär att identifieraren har upptäckts och skyddats, inte bara att ett försök till upptäckte har gjorts.

Klyftan med 40 identifierare

De flesta företags PII-upptäcktsverktyg levereras med igenkännare för cirka 40 vanliga identifierartyper. Dessa inkluderar vanligtvis:

  • US Social Security Number
  • US passformat
  • US körkort (statsspecifikt)
  • Generiska kreditkortsformat (Luhn-validering)
  • E-postadresser
  • Telefonnummer (NANP-format)
  • IP-adresser

Verktyg på denna täckningsnivå uppfyller engelsktalande nordamerikanska efterlevnadskrav ganska bra. De täcker inte identifierarlandskapet för organisationer som verkar globalt.

Klyftan mellan 40 identifierare och global efterlevnad är betydande:

Sydamerikanska identifierare: Brasiliansk CPF (individ) och CNPJ (företag) kräver kontrollsiffror som är specifika för Brasiliens skattemyndighetsformat. Argentinsk CUIT följer en annan viktad-summalgoritm. Colombiansk NIT använder ännu en annan valideringsmetod.

Asiatiska identifierare: Indisk PAN, Aadhaar (12-siffrig biometrisk ID), indisk GSTIN (GST-identifikation) och Voter ID har alla distinkta format. Japansk My Number (12-siffrig nationell ID), sydkoreansk Resident Registration Number och kinesisk nationell ID (18-tecken med kontrollsiffra) kräver alla separata igenkännare.

EU-identifierare: Utöver de vanligt erkända formaten kräver omfattande EU-täckning IBAN-format för alla 27 EU-medlemsstater (var och en med landspecifik längd och format), plus nationella ID-format för varje medlemsstat (tysk Steuer-ID, fransk NIR, nederländsk BSN, polsk PESEL, svensk Personnummer och mer).

Vad 260+ enhetstyper faktiskt täcker

Ett omfattande enhetsbibliotek med 260+ typer täcker:

  • Alla 27 EU-medlemsstaters nationella identifierare (inklusive mindre täckta: slovensk EMŠO, kroatisk OIB, bulgarisk EGN, rumänsk CNP)
  • Alla EU IBAN-format (27 landspecifika format med validering)
  • Stora sydamerikanska identifierare (Brasilien CPF/CNPJ, Argentina CUIT, Colombia NIT)
  • Stora asiatiska identifierare (Indien PAN/Aadhaar/GSTIN, Japan My Number, Korea RRN)
  • UK-specifika post-Brexit identifierare (UK NI Number, NHS Number, NINO-varianter)
  • Medicinska identifierare över jurisdiktioner (US NPI, DEA-nummer, NHS-nummer, sjukhus MRN-format)
  • Finansiella identifierare (SWIFT-koder, BIC-format, olika kontonummermönster)

För en London-baserad marknadsplats som betjänar säljare från 45 länder innebär 260+ enhetstäckning att en enda distribution hanterar identifieringen och skyddet av säljarens personliga data över alla jurisdiktioner — utan att kräva separata regionala verktyg, separata bearbetningspipelines eller manuell berikning för de nationella identifierartyper som ett 40-igenkännare verktyg missar.

Efterlevnadsställningen förändras från "vi skyddar vanliga identifierare" till "vi skyddar de identifierare som finns i våra faktiska data." För globala operationer är den skillnaden mellan partiell efterlevnad och genuint skydd.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.