Problem narzędzi PII skoncentrowanych na USA
Większość narzędzi do wykrywania PII została stworzona w Stanach Zjednoczonych dla amerykańskich formatów danych. Numer ubezpieczenia społecznego — 9 cyfr w formacie AAA-BB-CCCC, z udokumentowanymi numerami obszarów, numerami grup i numerami seryjnymi — był głównym celem projektowym. Narzędzia zbudowane wokół wykrywania SSN niezawodnie wykrywają numery SSN. Mogą również wykrywać numery telefonów, adresy e-mail i formaty amerykańskich praw jazdy. Systematycznie pomijają formaty identyfikatorów używane w każdym innym kraju.
GDPR nie uznaje skoncentrowania na USA jako zwolnienia z wymogów zgodności. Niemiecka Steuer-ID (Steuerliche Identifikationsnummer) to 11-cyfrowy numer identyfikacji podatkowej wydawany przez Bundeszentralamt für Steuern, z określonym algorytmem sumy kontrolnej weryfikowanym względem cyfry kontrolnej. Identyfikuje niemieckich mieszkańców tak osobiście, jak SSN identyfikuje Amerykanów. Artykuł 4 GDPR definiuje dane osobowe jako "wszelkie informacje dotyczące zidentyfikowanej lub identyfikowalnej osoby fizycznej" — Steuer-ID jest danymi osobowymi zgodnie z GDPR, niezależnie od tego, czy Twoje narzędzie PII zna format.
Nałożono kary na podstawie GDPR za ujawnienie PII specyficzne dla krajów UE w systemach danych, które przetwarzały dane mieszkańców UE przy użyciu narzędzi skonfigurowanych tylko dla amerykańskich formatów. Luka w zgodności nie jest teoretyczna — doprowadziła do działań egzekucyjnych.
Krajobraz identyfikatorów w Europie
Skala luki w pokryciu identyfikatorów w Europie:
Niemcy: Steuer-ID (11-cyfrowy, suma kontrolna), Sozialversicherungsnummer (12-cyfrowy, format strukturalny), Reisepass (10-cyfrowy paszport z określonymi kodami organu wydającego)
Francja: NIR/Numero de Securite Sociale (15 cyfr kodujących płeć [1], rok urodzenia [2], miesiąc urodzenia [2], departament [2], gmina [3], numer rejestru [3], klucz kontrolny [2]), Carte Vitale (karta 15-cyfrowego NIR), SIRET (14-cyfrowy identyfikator biznesowy), SIREN (9-cyfrowy)
Szwecja: Personnummer (10-cyfrowy, format YYMMDD-XXXX z ostatnimi dwiema cyframi identyfikującymi hrabstwo urodzenia w starszych numerach), Samordningsnummer (numer koordynacyjny dla nierezydentów, podobny format z dniem + 60)
Norwegia: Fodselsnummer (11-cyfrowy, format DDMMYYNNNKK z płcią w środkowych cyfrach), D-nummer (numer koordynacyjny, dzień + 40)
Brazylia: CPF (Cadastro de Pessoas Fisicas, 11-cyfrowy z dwiema cyframi kontrolnymi), CNPJ (14-cyfrowy identyfikator biznesowy)
Indie: Aadhaar (12-cyfrowa tożsamość biometryczna, z cyfrą kontrolną algorytmu Verhoeff), PAN (10-znakowy alfanumeryczny dla podatku dochodowego)
ZEA: Emirates ID (15-cyfrowy: 784-rok urodzenia-sekwencja-kontrola)
Globalny menedżer HR przetwarzający dane płacowe dla pracowników w 12 krajach potrzebuje narzędzia, które wykrywa wszystkie 12 krajowych formatów identyfikatorów w jednym przebiegu — bez konfigurowania 12 oddzielnych narzędzi specyficznych dla kraju lub utrzymywania 12 oddzielnych bibliotek regex.
Architektura 285+ typów podmiotów
Biblioteka 285+ typów podmiotów obejmuje pełny zestaw identyfikatorów państw członkowskich UE, główne identyfikatory APAC (Aadhaar, PAN, CPF, CNPJ, Emirates ID, tajski identyfikator obywatela) oraz identyfikatory USA (SSN, EIN, prawo jazdy według stanu) w jednym silniku wykrywania. Biblioteka jest utrzymywana i aktualizowana w miarę ewolucji specyficznych formatów krajowych.
Źródła: