Het Probleem van Fragmentatie van Wereldwijde Identifiers
Een marktplaatsplatform met verkopers in 45 landen verwerkt onboardingdocumenten die er volledig verschillend uitzien, afhankelijk van het land van herkomst van de verkoper. Een Braziliaanse verkoper dient een CPF (Cadastro de Pessoas Físicas) in — een 11-cijferig belasting-ID met twee controlecijfers die zijn berekend met behulp van een specifieke weging-algoritme. Een Indiase verkoper levert een PAN (Permanent Account Number) — een 10-teken alfanumeriek formaat dat letters en cijfers in een specifiek positioneel patroon combineert. Een Duitse verkoper levert een Steuer-ID (11-cijferig met Luhn-controle). Een Nederlandse verkoper levert een BSN (Burger Service Nummer, 9 cijfers met mod-11 validatie).
Elk formaat heeft een andere lengte, structuur en validatie-algoritme. Een enkele regex die is ontworpen voor één formaat komt niet overeen met de anderen. Een generiek "10-12 cijferige numerieke string" patroon produceert onaanvaardbare percentages valse positieven in financiële documenten die prijzen, hoeveelheden, data en referentienummers bevatten.
De nalevingsverplichting maakt geen onderscheid per land. GDPR dekt de gegevens van EU-verkopers. LGPD dekt de gegevens van de Braziliaanse verkoper. DPDP Act dekt de gegevens van de Indiase verkoper. Elk regulerend kader vereist passende bescherming van de persoonlijke gegevens die door dat kader worden gedekt — en "passend" betekent dat de identifier is gedetecteerd en beschermd, niet alleen dat er een detectiepoging is gedaan.
De 40-Identificator Kloof
De meeste enterprise PII-detectietools worden geleverd met herkenners voor ongeveer 40 veelvoorkomende identificatietypen. Deze omvatten doorgaans:
- Amerikaanse Social Security Number
- Amerikaanse paspoortformaat
- Amerikaanse rijbewijs (staat-specifiek)
- Generieke creditcardformaten (Luhn-validatie)
- E-mailadressen
- Telefoonnummers (NANP-formaat)
- IP-adressen
Tools op dit dekkingsniveau voldoen redelijk goed aan de nalevingsvereisten van Engelstalige Noord-Amerika. Ze dekken niet het identificatielandschap van organisaties die wereldwijd opereren.
De kloof tussen 40 identificatoren en wereldwijde naleving is aanzienlijk:
Zuid-Amerikaanse identificatoren: Braziliaanse CPF (individueel) en CNPJ (corporate) vereisen controlecijfervalidatie die specifiek is voor het fiscale autoriteitsformaat van Brazilië. Argentijnse CUIT volgt een ander gewogen-som algoritme. Colombiaanse NIT gebruikt weer een andere validatiemethode.
Aziatische identificatoren: Indiase PAN, Aadhaar (12-cijferige biometrische ID), Indiase GSTIN (GST-identificatie), en Voter ID hebben elk verschillende formaten. Japanse My Number (12-cijferige nationale ID), Zuid-Koreaanse Resident Registration Number, en Chinese nationale ID (18-teken met controlecijfer) vereisen allemaal aparte herkenners.
EU-identificatoren: Naast de algemeen erkende formaten, vereist uitgebreide EU-dekking IBAN-formaten voor alle 27 EU-lidstaten (elk met land-specifieke lengte en formaat), plus nationale ID-formaten voor elke lidstaat (Duitse Steuer-ID, Franse NIR, Nederlandse BSN, Poolse PESEL, Zweedse Personnummer, en meer).
Wat 260+ Entiteitstypen Werkelijk Dekt
Een uitgebreide entiteitsbibliotheek met 260+ types dekt:
- Alle 27 nationale identificatoren van EU-lidstaten (inclusief minder goed gedekte: Sloveense EMŠO, Kroatische OIB, Bulgaarse EGN, Roemeense CNP)
- Alle EU IBAN-formaten (27 land-specifieke formaten met validatie)
- Belangrijke Zuid-Amerikaanse identificatoren (Brazilië CPF/CNPJ, Argentinië CUIT, Colombia NIT)
- Belangrijke Aziatische identificatoren (India PAN/Aadhaar/GSTIN, Japan My Number, Korea RRN)
- UK-specifieke post-Brexit identificatoren (UK NI Number, NHS Number, NINO-varianten)
- Medische identificatoren over jurisdicties heen (VS NPI, DEA-nummers, NHS-nummers, ziekenhuis MRN-formaten)
- Financiële identificatoren (SWIFT-codes, BIC-formaten, verschillende rekeningnummerpatronen)
Voor een in Londen gevestigde marktplaats die verkopers uit 45 landen bedient, betekent 260+ entiteitdekking dat een enkele implementatie de identificatie en bescherming van persoonlijke gegevens van verkopers over alle jurisdicties afhandelt — zonder dat aparte regionale tools, aparte verwerkingspijplijnen of handmatige verrijking voor de nationale identificatietypen die een 40-herkenner tool mist, nodig zijn.
De nalevingshouding verandert van "we beschermen veelvoorkomende identificatoren" naar "we beschermen de identificatoren die in onze werkelijke gegevens aanwezig zijn." Voor wereldwijde operaties is dat onderscheid het verschil tussen gedeeltelijke naleving en echte bescherming.
Bronnen: