LGPD Brazilija: CPF, CNPJ ir duomenų apsauga

Brazilijos Lei Geral de Protecao de Dados (LGPD) apima 215 milijonų žmonių. Tai trečias pagal dydį duomenų apsaugos įstatymas pasaulyje pagal gyventojų skaičių. Jis apima daugiau žmonių nei Vokietija, Prancūzija ir Jungtinė Karalystė kartu. Autoridade Nacional de Protecao de Dados (ANPD) 2024 m. paskyrė pirmąsias dideles baudas. Lengvatinis laikotarpis po LGPD priėmimo 2020 m. baigėsi.

Taip pat yra techninis iššūkis. LGPD dokumentai yra Brazilijos portugalų kalba. Brazilijos nacionaliniai ID skiriasi nuo Portugalijos. Jie taip pat skiriasi nuo bet kurios kitos šalies ID.

Kodėl Brazilijos ADA yra kitokia

Brazilijos federalinės ir valstybinės ID sistemos atsiskyrė nuo Europos skaitmeninio tapatybės sistemų. Tai sukūrė unikalų identifikatorių rinkinį. Dauguma NLP įrankių yra apmokyti su anglų ar Europos duomenimis. Jiems nepavyksta aptikti vietinių ID.

CPF (Cadastro de Pessoas Fisicas): 11 skaitmenų mokesčių mokėtojo numeris. Formatas: XXX.XXX.XXX-XX. Jis turi du tikrinimo skaitmenis. Formulė naudoja du atskirus matematinius žingsnius. Abu turi atitikti, kad CPF būtų galiojantis.

Aptikimo spraga yra didelė. Anglų kalba apmokyti NLP įrankiai aptinka CPF tik 45% tikslumu (ANPD, 2024). Tai paaiškina dvi priežastys. Pirma, įrankiai, atitinkantys 11 skaitmenų skaičius be dviejų etapų tikrinimo skaitmens logikos, painioja galiojančius CPF numerius su atsitiktinėmis sekomis. Antra, CPF kartais neturi XXX.XXX.XXX-XX formato. Tai pasitaiko OCR rezultatuose ir paprastojo teksto formose.

CNPJ (Cadastro Nacional da Pessoa Juridica): 14 skaitmenų įmonės ID numeris. Formatas: XX.XXX.XXX/XXXX-XX. Jis taip pat turi du tikrinimo skaitmenis. Formulė panaši į CPF, bet ne tokia pati.

RG (Registro Geral): Valstybinis pilietinis tapatybės dokumentas. Formatas skiriasi priklausomai nuo valstijos. San Paulas naudoja 2 raides ir 5-9 skaitmenis. Rio de Žaneiras naudoja 7-8 skaitmenis su brūkšniu. Minaso Žeraiso naudoja 7-9 skaitmenis. Kitos valstijos turi savo formatus. Įrankis, žinantis tik vienos valstijos RG, praleis daugumą RG numerių.

CNH (Carteira Nacional de Habilitacao): 11 skaitmenų vairuotojo pažymėjimo numeris. Jis turi vieną tikrinimo skaitmenį. Formate yra rajono kodas.

Titulo de Eleitor: 12 skaitmenų rinkėjo ID numeris. Jis turi tris dalis: 8 skaitmenų ID kodą, 2 skaitmenų valstijos kodą ir 2 tikrinimo skaitmenis.

SUS numeris (Cartao SUS): 15 skaitmenų visuomenines sveikatos ID. Kiekvienas šalies gyventojas gauna vieną. Jis pasirodo visuose ligoninių ir klinikų įrašuose.

PIS/PASEP: 11 skaitmenų socialinės programos numeris. Jis pasirodo kiekviename užimtumo įraše.

LGPD anonimizavimo standartas

LGPD 12 straipsnis apibrėžia anoniminius duomenis. Standartas: duomenys "negali būti identifikuoti, atsižvelgiant į pagrįstas technines priemones apdorojimo metu". Tai technologijų atžvilgiu santykinis standartas. Šiandien anoniminiai duomenys gali tokiais neblikti tobulėjant pakartotinio identifikavimo metodams.

ANPD suteikia papildomų gairių. Tiesioginių identifikatorių, tokių kaip CPF ir vardas, pašalinimas nepakanka. Kvaziidentifikatorių grupės vis tiek gali leisti pakartotinai identifikuoti. Amžiaus diapazonas, miestas, lytis ir darbas kartu gali identifikuoti asmenį. Juos reikia tvarkyti grupuojant arba pridedant triukšmą.

DI mokymo duomenims ANPD reikalauja vienos iš trijų sąlygų. Pirma: duomenys atitinka 12 straipsnio standartą. Antra: kiekvienas duomenų subjektas davė aiškų sutikimą konkrečiam mokymo naudojimui. Trečia: yra galiojantis dokumentuotas tikslas.

Portugalu kalbos reikalavimai

Brazilijos portugalų kalba skiriasi nuo Europos portugalų kalbos. Žodžiai, rašyba ir dokumentų formos nėra vienodos. NLP modeliai, apmokyti su Portugalijos tekstu, pasiekia apie 71% vietiniais duomenimis apmokytų modelių tikslumo. Tai gauta iš ANPD techninio vertinimo.

Pagrindiniai skirtumai ADA aptikimui:

Vardai: Dvigubų pavardžių naudojimas ir vardo tvarka skiriasi nuo Portugalijos.
Adresai: CEP kodai naudoja formatą XXXXX-XXX. Šis formatas yra unikalus šiai šaliai. Jam reikalinga sava aptikimo logika.
Dokumentų terminai: "Carteira de Identidade" čia vs. "Bilhete de Identidade" Portugalijoje. Agentūrų pavadinimai taip pat skiriasi.

Ko reikia ANPD atitikčiai

Keturi techniniai poreikiai apima ANPD atitiktį. CPF ir CNPJ aptikimas turi apimti dviejų etapų tikrinimo skaitmens patvirtinimą. RG aptikimas turi aprėpti visas valstybes. Taip pat reikalingas SUS numerio ir Titulo de Eleitor aptikimas. NLP modeliai turi būti apmokyti vietiniu portugalų tekstu.

Žr. mūsų vadovą globaliam ADA identifikatoriaus aptikimui ir LGPD vykdymo veiksmams 2024 m..

Šaltiniai

Susiję Straipsniai

GDPR ir Atitiktis

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

Pradėti Nemokamą Bandomąją Versiją Peržiūrėti Funkcijas

LGPD Brazilija: CPF, CNPJ ir duomenų apsauga