Problemet med global identifikatorfragmentering
En markedsplassplattform med selgere i 45 land behandler onboarding-dokumenter som ser helt forskjellige ut avhengig av selgerens opprinnelsesland. En brasiliansk selger sender inn en CPF (Cadastro de Pessoas Físicas) — et 11-sifret skatte-ID med to kontrollsifre beregnet ved hjelp av en spesifikk vektingsalgoritme. En indisk selger gir en PAN (Permanent Account Number) — et 10-tegn alfanumerisk format som kombinerer bokstaver og sifre i et spesifikt posisjonsmønster. En tysk selger gir en Steuer-ID (11-siffer med Luhn-kontrollsum). En nederlandsk selger gir en BSN (Burger Service Nummer, 9 sifre med mod-11 validering).
Hvert format har forskjellig lengde, struktur og valideringsalgoritme. En enkelt regex designet for ett format matcher ikke de andre. Et generisk "10-12 sifret numerisk streng" mønster gir prohibitive falske positive rater på tvers av finansielle dokumenter som inneholder priser, mengder, datoer og referansenummer.
Overholdelsesforpliktelsen skiller ikke mellom land. GDPR dekker EU-selgeres data. LGPD dekker den brasilianske selgerens data. DPDP-loven dekker den indiske selgerens data. Hver reguleringsramme krever passende beskyttelse av de personopplysningene som dekkes av den rammeverket — og "passende" betyr at identifikatoren ble oppdaget og beskyttet, ikke bare at et forsøk på oppdagelse ble gjort.
Gapet med 40 identifikatorer
De fleste bedriftsverktøy for PII-detektering leveres med gjenkjennere for omtrent 40 vanlige identifikatortyper. Disse inkluderer typisk:
- USAs personnummer
- USAs passformat
- USAs førerkort (statsspesifikt)
- Generiske kredittkortformater (Luhn-validering)
- E-postadresser
- Telefonnummer (NANP-format)
- IP-adresser
Verktøy på dette dekning nivået tilfredsstiller engelsktalende nordamerikanske overholdelseskrav ganske bra. De dekker ikke identifikatorlandskapet til organisasjoner som opererer globalt.
Gapet mellom 40 identifikatorer og global overholdelse er betydelig:
Sør-amerikanske identifikatorer: Brasiliansk CPF (individuell) og CNPJ (bedrift) krever kontrollsumvalidering spesifikk for Brasil sin skattemyndighetsformat. Argentinsk CUIT følger en annen vektet-sum algoritme. Colombiansk NIT bruker enda en annen valideringsmetode.
Asiatiske identifikatorer: Indisk PAN, Aadhaar (12-sifret biometrisk ID), indisk GSTIN (GST-identifikasjon), og velger-ID har hver sine distinkte formater. Japansk My Number (12-sifret nasjonal ID), sørkoreansk registreringsnummer, og kinesisk nasjonal ID (18-tegn med kontrollsiffer) krever alle separate gjenkjennere.
EU-identifikatorer: Utover de vanlig anerkjente formatene, krever omfattende EU-dekning IBAN-formater for alle 27 EU-medlemsland (hver med lands spesifik lengde og format), pluss nasjonale ID-formater for hvert medlemsland (tysk Steuer-ID, fransk NIR, nederlandsk BSN, polsk PESEL, svensk Personnummer, og mer).
Hva 260+ enhetstyper faktisk dekker
Et omfattende enhetsbibliotek med 260+ typer dekker:
- Alle 27 EU-medlemslands nasjonale identifikatorer (inkludert mindre dekkede: slovensk EMŠO, kroatisk OIB, bulgarsk EGN, rumensk CNP)
- Alle EU IBAN-formater (27 lands spesifikke formater med validering)
- Store sør-amerikanske identifikatorer (Brasil CPF/CNPJ, Argentina CUIT, Colombia NIT)
- Store asiatiske identifikatorer (India PAN/Aadhaar/GSTIN, Japan My Number, Korea RRN)
- UK-spesifikke post-Brexit identifikatorer (UK NI-nummer, NHS-nummer, NINO-varianter)
- Medisinske identifikatorer på tvers av jurisdiksjoner (US NPI, DEA-nummer, NHS-nummer, sykehus MRN-formater)
- Finansielle identifikatorer (SWIFT-koder, BIC-formater, ulike kontonummer mønstre)
For en London-basert markedsplass som betjener selgere fra 45 land, betyr 260+ enhetsdekning at en enkelt distribusjon håndterer identifikasjonen og beskyttelsen av selgerens personopplysninger på tvers av alle jurisdiksjoner — uten å kreve separate regionale verktøy, separate behandlingslinjer, eller manuell berikelse for de nasjonale identifikatortypene som et 40-gjenkjenner verktøy savner.
Overholdelsesstillingen endres fra "vi beskytter vanlige identifikatorer" til "vi beskytter identifikatorene som er til stede i våre faktiske data." For globale operasjoner er den distinksjonen forskjellen mellom delvis overholdelse og genuin beskyttelse.
Kilder: