LGPD Brazílie: CPF, CNPJ a ochrana osobních údajů
Brazilský zákon Lei Geral de Proteção de Dados (LGPD) se vztahuje na 215 milionů lidí. Je to třetí největší zákon o ochraně dat na světě podle počtu obyvatel. Pokrývá více lidí než Německo, Francie a Velká Británie dohromady. Národní úřad pro ochranu dat Autoridade Nacional de Proteção de Dados (ANPD) vydal v roce 2024 první významné pokuty. Přechodné období po vstupu LGPD v platnost v roce 2020 je u konce.
Existuje také technická výzva. Dokumenty podle LGPD jsou v brazilské portugalštině. Národní identifikátory v Brazílii se liší od těch v Portugalsku a od identifikátorů jakékoli jiné země.
Proč jsou brazilské PII jiné
Brazilský federální a státní systém identifikátorů se odloučil od evropských systémů digitální identity. To vytvořilo jedinečnou sadu identifikátorů. Většina NLP nástrojů je trénována na anglických nebo evropských datech. Místní identifikátory detekují nedostatečně.
CPF (Cadastro de Pessoas Físicas): 11místné daňové identifikační číslo. Formát: XXX.XXX.XXX-XX. Obsahuje dvě kontrolní číslice. Vzorec používá dva samostatné matematické kroky. Oba musí souhlasit, aby bylo CPF platné.
Mezera v detekci je značná. NLP nástroje trénované na angličtině detekují CPF s přesností pouhých 45 % (ANPD, 2024). Vysvětlují to dva důvody. Za prvé, nástroje párující 11místná čísla bez dvoukrokové logiky kontrolní číslice zaměňují platná čísla CPF s náhodnými sekvencemi. Za druhé, CPF někdy postrádá formát XXX.XXX.XXX-XX. K tomu dochází ve výstupu OCR a prostých textových formulářích.
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14místné identifikační číslo firmy. Formát: XX.XXX.XXX/XXXX-XX. Obsahuje také dvě kontrolní číslice. Vzorec je podobný CPF, ale nikoliv totožný.
RG (Registro Geral): Státní průkaz totožnosti. Formát se liší podle státu. São Paulo používá 2 písmena a 5–9 číslic. Rio de Janeiro používá 7–8 číslic s pomlčkou. Minas Gerais používá 7–9 číslic. Ostatní státy mají vlastní formáty. Nástroj, který zná pouze formát jednoho státu, přehlédne většinu čísel RG.
CNH (Carteira Nacional de Habilitação): 11místné číslo řidičského průkazu. Obsahuje jednu kontrolní číslici. Formát zahrnuje kód okresu.
Título de Eleitor: 12místné číslo voličského průkazu. Skládá se ze tří částí: 8místný identifikační kód, 2místný kód státu a 2 kontrolní číslice.
Číslo SUS (Cartão SUS): 15místný identifikátor veřejného zdravotnictví. Má ho každá osoba v zemi. Vyskytuje se ve všech nemocničních a klinických záznamech.
PIS/PASEP: 11místné číslo sociálního programu. Vyskytuje se v každém pracovním záznamu.
Standard anonymizace podle LGPD
Článek 12 LGPD definuje anonymní data. Standard zní: data „nelze identifikovat s přihlédnutím k přiměřeným technickým prostředkům dostupným v době zpracování.“ Jde o standard relativní k technologiím. Data dnes anonymní nemusí zůstat anonymní v budoucnosti, jak se zlepšují metody opětovné identifikace.
ANPD přidává další pokyny. Odstranění přímých identifikátorů, jako je CPF a jméno, nestačí. Skupiny kvaziidentifikátorů mohou stále umožnit opětovnou identifikaci. Věkové rozmezí, město, pohlaví a zaměstnání dohromady mohou osobu identifikovat. S těmito atributy je nutné naložit seskupením nebo přidáním šumu.
Pro AI tréninková data ANPD vyžaduje splnění jedné ze tří podmínek. Za prvé: data splňují standard článku 12. Za druhé: každý subjekt údajů dal výslovný souhlas pro konkrétní využití při tréninku. Za třetí: existuje platný a zdokumentovaný účel.
Jazykové požadavky pro portugalštinu
Brazilská portugalština se liší od evropské portugalštiny. Slova, pravopis a formuláře dokumentů nejsou totožné. NLP modely trénované na textech z Portugalska dosahují přibližně 71 % přesnosti ve srovnání s modely trénovanými na místních textech. Toto zjištění pochází z technického hodnocení ANPD.
Klíčové rozdíly pro detekci PII:
- Jména: Používání dvojitých příjmení a pořadí jmen se liší od Portugalska.
- Adresy: Kódy CEP mají formát XXXXX-XXX. Tento formát je pro zemi jedinečný a vyžaduje vlastní detekční logiku.
- Pojmy v dokumentech: V Brazílii se používá „Carteira de Identidade“, v Portugalsku „Bilhete de Identidade.“ Liší se i názvy úřadů.
Co vyžaduje soulad s ANPD
Čtyři technické požadavky pokrývají soulad s ANPD. Detekce CPF a CNPJ musí zahrnovat dvoukrokovou validaci kontrolní číslice. Detekce RG musí pokrývat všechny státy. Vyžaduje se také detekce čísla SUS a Título de Eleitor. NLP modely musí být trénovány na místní portugalštině.
Viz náš průvodce globální detekcí identifikátorů PII a vymáháním LGPD v roce 2024.