Problem fragmentacji globalnych identyfikatorów
Platforma rynkowa z sprzedawcami w 45 krajach przetwarza dokumenty rejestracyjne, które wyglądają całkowicie inaczej w zależności od kraju pochodzenia sprzedawcy. Brazylijski sprzedawca przedstawia CPF (Cadastro de Pessoas Físicas) — 11-cyfrowy identyfikator podatkowy z dwiema cyframi kontrolnymi obliczanymi za pomocą określonego algorytmu wagowego. Indyjski sprzedawca dostarcza PAN (Permanent Account Number) — alfanumeryczny format o długości 10 znaków, łączący litery i cyfry w określonym wzorze pozycyjnym. Niemiecki sprzedawca przedstawia Steuer-ID (11-cyfrowy z sumą kontrolną Luhna). Holenderski sprzedawca dostarcza BSN (Burger Service Nummer, 9 cyfr z walidacją mod-11).
Każdy format ma różną długość, strukturę i algorytm walidacji. Pojedynczy regex zaprojektowany dla jednego formatu nie pasuje do innych. Ogólny wzór "ciąg numeryczny 10-12 cyfr" generuje prohibicyjne wskaźniki fałszywych pozytywów w dokumentach finansowych zawierających ceny, ilości, daty i numery referencyjne.
Obowiązek zgodności nie różnicuje się w zależności od kraju. RODO obejmuje dane sprzedawców z UE. LGPD obejmuje dane sprzedawcy z Brazylii. Ustawa DPDP obejmuje dane sprzedawcy z Indii. Każdy system regulacyjny wymaga odpowiedniej ochrony danych osobowych objętych tym systemem — a "odpowiednia" oznacza, że identyfikator został wykryty i chroniony, a nie tylko, że podjęto próbę wykrycia.
Luka 40 identyfikatorów
Większość narzędzi do wykrywania PII w przedsiębiorstwach dostarczana jest z rozpoznawaczami dla około 40 typów identyfikatorów. Zazwyczaj obejmują one:
- Amerykański numer ubezpieczenia społecznego
- Format paszportu USA
- Prawo jazdy USA (specyficzne dla stanu)
- Ogólne formaty kart kredytowych (walidacja Luhna)
- Adresy e-mail
- Numery telefonów (format NANP)
- Adresy IP
Narzędzia na tym poziomie pokrycia zadowalają wymagania zgodności dla anglojęzycznej Ameryki Północnej w rozsądny sposób. Nie obejmują one krajobrazu identyfikatorów organizacji działających globalnie.
Luka między 40 identyfikatorami a globalną zgodnością jest znaczna:
Identyfikatory Ameryki Południowej: Brazylijski CPF (indywidualny) i CNPJ (korporacyjny) wymagają walidacji sumy kontrolnej specyficznej dla formatu organu skarbowego Brazylii. Argentyński CUIT stosuje inny algorytm ważonej sumy. Kolumbijski NIT używa jeszcze innej metody walidacji.
Identyfikatory Azji: Indyjski PAN, Aadhaar (12-cyfrowy identyfikator biometryczny), indyjski GSTIN (identyfikator GST) i identyfikator wyborcy mają różne formaty. Japoński My Number (12-cyfrowy krajowy identyfikator), południowokoreański numer rejestracji mieszkańca oraz chiński krajowy identyfikator (18-znakowy z cyfrą kontrolną) wymagają oddzielnych rozpoznawaczy.
Identyfikatory UE: Poza powszechnie uznawanymi formatami, kompleksowe pokrycie UE wymaga formatów IBAN dla wszystkich 27 państw członkowskich UE (każde z specyficzną długością i formatem), plus formaty krajowych identyfikatorów dla każdego państwa członkowskiego (niemiecka Steuer-ID, francuski NIR, holenderski BSN, polski PESEL, szwedzki Personnummer i inne).
Co obejmuje 260+ typów podmiotów
Kompleksowa biblioteka podmiotów z 260+ typami obejmuje:
- Wszystkie krajowe identyfikatory 27 państw członkowskich UE (w tym mniej znane: słoweński EMŠO, chorwacki OIB, bułgarski EGN, rumuński CNP)
- Wszystkie formaty IBAN w UE (27 krajowych formatów z walidacją)
- Główne identyfikatory Ameryki Południowej (Brazylia CPF/CNPJ, Argentyna CUIT, Kolumbia NIT)
- Główne identyfikatory Azji (Indie PAN/Aadhaar/GSTIN, Japonia My Number, Korea RRN)
- Specyficzne dla Wielkiej Brytanii identyfikatory po Brexicie (UK NI Number, NHS Number, warianty NINO)
- Identyfikatory medyczne w różnych jurysdykcjach (US NPI, numery DEA, numery NHS, formaty MRN szpitali)
- Identyfikatory finansowe (kody SWIFT, formaty BIC, różne wzory numerów kont)
Dla londyńskiej platformy rynkowej obsługującej sprzedawców z 45 krajów, pokrycie 260+ podmiotów oznacza, że pojedyncza implementacja obsługuje identyfikację i ochronę danych osobowych sprzedawców we wszystkich jurysdykcjach — bez potrzeby oddzielnych narzędzi regionalnych, oddzielnych procesów przetwarzania lub ręcznego wzbogacania dla typów identyfikatorów krajowych, które umykały narzędziu z 40 rozpoznawaczami.
Postawa zgodności zmienia się z "chronimy powszechnie stosowane identyfikatory" na "chronimy identyfikatory obecne w naszych rzeczywistych danych." Dla globalnych operacji ta różnica to różnica między częściową zgodnością a prawdziwą ochroną.
Źródła: