LGPD Brazil: CPF, CNPJ, at Proteksyon ng Data
Sinasaklaw ng Lei Geral de Protecao de Dados (LGPD) ng Brazil ang 215 milyong tao. Ito ang ikatlong pinakamalaking batas sa proteksyon ng data sa mundo ayon sa populasyon. Sumasaklaw ito ng higit pang tao kaysa sa Germany, France, at UK na pinagsama. Naglabas ang Autoridade Nacional de Protecao de Dados (ANPD) ng mga unang pangunahing multa noong 2024. Tapos na ang grace period pagkatapos ng pagpapatupad ng LGPD noong 2020.
Mayroon ding teknikal na hamon. Ang mga dokumento ng LGPD ay nasa Brazilian Portuguese. Naiiba ang mga national ID sa Brazil mula sa mga ID sa Portugal. Naiiba rin ang mga ito mula sa mga ID ng ibang bansa.
Bakit Naiiba ang Brazilian PII
Naghiwalay ang mga pederal at estado na sistema ng ID ng Brazil mula sa mga European na sistema ng digital identity. Lumikha ito ng natatanging hanay ng mga identifier. Karamihan sa mga NLP tool ay sinanay sa English o European na data. Nabibigo ang mga ito sa pag-detect ng mga lokal na ID.
CPF (Cadastro de Pessoas Fisicas): Ang 11-digit na numero ng nagbabayad ng buwis. Format: XXX.XXX.XXX-XX. Mayroon itong dalawang check digit. Gumagamit ang formula ng dalawang hiwalay na hakbang sa matematika. Parehong dapat tumugma para maging wasto ang CPF.
Malaki ang agwat sa pag-detect. Nakaka-detect lang ng CPF ang mga NLP tool na sinanay sa English sa 45% na katumpakan (ANPD, 2024). Dalawang dahilan ang nagpapaliwanag nito. Una, ang mga tool na nagtutugma sa mga 11-digit na numero nang walang dalawang hakbang na lohika ng check digit ay nagpapalito ng mga wastong numero ng CPF sa mga random na sequence. Pangalawa, kung minsan ay kulang ang CPF sa format na XXX.XXX.XXX-XX. Nangyayari ito sa OCR output at plain-text na mga form.
CNPJ (Cadastro Nacional da Pessoa Juridica): Ang 14-digit na numero ng ID ng kumpanya. Format: XX.XXX.XXX/XXXX-XX. Mayroon din itong dalawang check digit. Katulad ang formula ng CPF ngunit hindi pareho.
RG (Registro Geral): Ang estado civil ID card. Nag-iiba ang format ayon sa estado. Gumagamit ang Sao Paulo ng 2 titik at 5-9 digit. Gumagamit ang Rio de Janeiro ng 7-8 digit na may gitling. Gumagamit ang Minas Gerais ng 7-9 digit. Ang ibang estado ay may sariling format. Ang isang tool na nakakaalam ng format ng RG ng isang estado lamang ay mapalampas ang karamihan ng mga numero ng RG.
CNH (Carteira Nacional de Habilitacao): Ang 11-digit na numero ng driver's license. Mayroon itong isang check digit. Kasama sa format ang isang district code.
Titulo de Eleitor: Ang 12-digit na voter ID number. Mayroon itong tatlong bahagi: isang 8-digit na ID code, isang 2-digit na state code, at 2 check digit.
SUS number (Cartao SUS): Ang 15-digit na public health ID. Bawat tao sa bansa ay nakakakuha nito. Lumalabas ito sa lahat ng rekord ng ospital at klinika.
PIS/PASEP: Ang 11-digit na numero ng social program. Lumalabas ito sa bawat rekord ng trabaho.
Pamantayan ng LGPD Anonymization
Inilalarawan ng LGPD Article 12 ang anonymous na data. Ang pamantayan: data na "hindi matutukoy, isinasaalang-alang ang makatwirang teknikal na paraan sa oras ng pagpoproseso." Ito ay isang pamantayan na relatibo sa teknolohiya. Ang data na anonymous ngayon ay maaaring hindi manatiling ganoon habang nagpapabuti ang mga paraan ng re-ID.
Nagdaragdag ang ANPD ng higit pang gabay. Hindi sapat ang pag-alis ng mga direktang identifier tulad ng CPF at pangalan. Ang mga grupo ng quasi-identifier ay maaari pa ring magpahintulot ng re-ID. Ang hanay ng edad, lungsod, kasarian, at trabaho ay maaaring magtukoy ng isang tao. Ang mga ito ay dapat harapin sa pamamagitan ng pagpapangkat o pagdaragdag ng ingay.
Para sa data ng AI training, nangangailangan ang ANPD ng isa sa tatlong kondisyon. Una: natutugunan ng data ang pamantayan ng Article 12. Pangalawa: bawat data subject ay nagbigay ng explicit na pahintulot para sa tiyak na paggamit sa training. Pangatlo: mayroong wastong dokumentadong layunin.
Mga Kinakailangan sa Wikang Portuges
Naiiba ang Brazilian Portuguese sa European Portuguese. Hindi pareho ang mga salita, pagbabaybay, at mga anyo ng dokumento. Ang mga NLP model na sinanay sa teksto ng Portugal ay umaabot ng humigit-kumulang 71% ng katumpakan ng mga modelo na sinanay sa lokal na teksto. Nagmumula ito sa teknikal na pagtatasa ng ANPD.
Mga pangunahing pagkakaiba para sa pag-detect ng PII:
- Mga pangalan: Naiiba ang paggamit ng double-surname at pagkakasunud-sunod ng pangalan mula sa Portugal.
- Mga address: Gumagamit ang mga CEP code ng format na XXXXX-XXX. Natatangi ang format na ito sa bansa. Nangangailangan ito ng sariling lohika ng pag-detect.
- Mga termino ng dokumento: "Carteira de Identidade" dito kumpara sa "Bilhete de Identidade" sa Portugal. Naiiba rin ang mga pangalan ng ahensya.
Ano ang Kailangan ng ANPD Compliance
Aapat na teknikal na pangangailangan ang sumasaklaw sa pagsunod sa ANPD. Ang pag-detect ng CPF at CNPJ ay dapat magsama ng two-step na check digit validation. Dapat saklawin ng pag-detect ng RG ang lahat ng estado. Kinakailangan din ang pag-detect ng SUS number at Titulo de Eleitor. Ang mga NLP model ay dapat sinanay sa lokal na teksto ng Portuges.
Tingnan ang aming gabay sa global na pag-detect ng PII identifier at mga aksyon sa pagpapatupad ng LGPD noong 2024.