Globální osobní identifikátory: SSN, CPF, Aadhaar a další
Problém nástrojů PII zaměřených na USA
Většina nástrojů pro detekci osobních údajů (PII) byla vyvinuta ve Spojených státech. Cílí na americké datové formáty. Číslo sociálního zabezpečení (SSN) má devět číslic ve formátu AAA-BB-CCCC. Jeho segmenty oblasti, skupiny a pořadového čísla se řídí zdokumentovanými pravidly. Nástroje zaměřené na USA ho zachytí dobře. Detekují také americká telefonní čísla, e-mailové adresy a řidičské průkazy. Přehlédnou každý národní identifikátor používaný mimo USA.
GDPR neumožňuje výjimku jen pro USA. Vezměte německé Steuer-ID. Jedná se o 11místné daňové číslo vydávané Spolkovým ústředním daňovým úřadem (Bundeszentralamt für Steuern). Jeho poslední číslice je kontrolní součet. Identifikuje německého rezidenta stejně jako SSN identifikuje Američana. Článek 4 GDPR pokrývá „veškeré informace týkající se identifikované nebo identifikovatelné fyzické osoby.” Steuer-ID tuto definici splňuje. Je to osobní údaj — bez ohledu na to, zda váš nástroj daný formát zná.
Pokuty GDPR za odhalení PII specifických pro EU v systémech používajících nástroje pouze pro USA již byly uděleny. Mezera v souladu s předpisy je reálná. Výsledkem byly sankce. Viz náš průvodce dodržováním GDPR.
Krajina evropských identifikátorů
Mezera v pokrytí je velká. Zde je přehled podle zemí.
Německo: Steuer-ID — 11 číslic, ověřeno kontrolním součtem. Sozialversicherungsnummer — 12 polí, strukturované. Reisepass — 10 znaků s kódy úřadů.
Francie: NIR je národní číslo sociálního pojištění. Má 15 číslic kódujících pohlaví, rok a měsíc narození, departement, obec a kontrolní klíč. SIRET má 14 číslic. SIREN má devět.
Švédsko: Personnummer používá formát RRMMDD-XXXX. Samordningsnummer pokrývá nerezidenty. Hodnota dne je zvýšena o 60.
Norsko: Fødselsnummer má 11 číslic ve formátu DDMMRRNNKK. Pohlaví je zakódováno ve střední skupině. D-nummer zvyšuje hodnotu dne o 40.
Brazílie: CPF — Cadastro de Pessoas Físicas — má 11 číslic se dvěma kontrolními hodnotami. CNPJ je 14místný obchodní identifikátor.
Indie: Aadhaar je 12místný biometrický identifikátor s Verhoeffovým kontrolním součtem. PAN je 10místné daňové číslo s písmeny a číslicemi.
Spojené arabské emiráty: Emirates ID má 15 číslic ve formátu 784-rok_narození-pořadí-kontrola.
Globální HR tým pokrývající 12 zemí potřebuje jeden nástroj. Musí v jediném průchodu zpracovat všech 12 národních formátů identifikátorů. Udržovat oddělené knihovny regulárních výrazů pro každou zemi není praktické.
Architektura 285+ typů entit
Knihovna 285+ typů entit pokrývá formáty všech členských států EU. Zahrnuje také hlavní identifikátory z oblasti Asie a Tichomoří: Aadhaar, PAN, CPF, CNPJ, Emirates ID a thajský občanský průkaz. Americké formáty — SSN, EIN, státní řidičské průkazy — jsou rovněž zahrnuty. Jeden systém zpracovává vše. Knihovna se aktualizuje s měnícími se formáty.
To je mezera, kterou většina nástrojů nechává otevřenou. Viz reference entit pro přehled pokrytí. Pro ceny API podle objemu navštivte ceník.