LGPD Brazil: CPF, CNPJ i zastita podataka
Brazilski Lei Geral de Protecao de Dados (LGPD) pokriva 215 miliona ljudi. To je treci najsiri zakon o zastiti podataka na svetu po broju stanovnika. Pokriva vise ljudi nego Nemacka, Francuska i UK zajedno. Autoridade Nacional de Protecao de Dados (ANPD) izdala je prve vazne kazne u 2024. Period tolerancije posle donosenja LGPD-a iz 2020. je prosi.
Postoji i tehnicki izazov. LGPD dokumenti su na brazilskom portugalskom. Nacionalni ID-jevi u Brazilu razlikuju se od onih u Portugalu. Takodje se razlikuju od ID-jeva bilo koje druge drzave.
Zasto su brazilski PII podaci razliciti
Brazilski savezni i drzavni ID sistemi razvili su se odvojeno od evropskih sistema digitalnog identiteta. Ovo je stvorilo jedinstven skup identifikatora. Vecina NLP alata trenirani su na engleskim ili evropskim podacima. Ne uspevaju da detektuju lokalne ID-jeve.
CPF (Cadastro de Pessoas Fisicas): 11-cifreni poreski broj. Format: XXX.XXX.XXX-XX. Ima dve kontrolne cifre. Formula koristi dva odvojena matematicka koraka. Oba moraju da se podudaraju da bi CPF bio validan.
Praznina u detekciji je velika. NLP alati trenirani na engleskom detektuju CPF sa samo 45% tacnoscu (ANPD, 2024). Dva razloga objasnjavauju ovo. Prvo, alati koji uparuju 11-cifrene brojeve bez logike dvostepene kontrolne cifre brkaju valjane CPF brojeve sa slucajnim nizovima. Drugo, CPF ponekad nema format XXX.XXX.XXX-XX. To se desava u OCR rezultatima i obicnim tekstualnim formularima.
CNPJ (Cadastro Nacional da Pessoa Juridica): 14-cifreni ID broj kompanije. Format: XX.XXX.XXX/XXXX-XX. Takodje ima dve kontrolne cifre. Formula je slicna CPF-u, ali nije ista.
RG (Registro Geral): Drzavna licna karta. Format varira u zavisnosti od drzave. Sao Paulo koristi 2 slova i 5-9 cifara. Rio de Janeiro koristi 7-8 cifara sa crticom. Minas Gerais koristi 7-9 cifara. Ostale drzave imaju sopstvene formate. Alat koji poznaje samo RG jedne drzave propustice vecinu RG brojeva.
CNH (Carteira Nacional de Habilitacao): 11-cifreni broj vozacke dozvole. Ima jednu kontrolnu cifru. Format ukljucuje kod okruga.
Titulo de Eleitor: 12-cifreni ID biraca. Ima tri dela: 8-cifreni ID kod, 2-cifreni drzavni kod i 2 kontrolne cifre.
SUS broj (Cartao SUS): 15-cifreni ID javnog zdravlja. Svaka osoba u zemlji ga dobija. Pojavljuje se u svim bolnickim i klinickim zapisima.
PIS/PASEP: 11-cifreni broj socijalnog programa. Pojavljuje se u svakom radnom zapisu.
Standard anonimizacije prema LGPD
LGPD clan 12 definise anonimne podatke. Standard: podaci koji "ne mogu biti identifikovani, uzimajuci u obzir razumna tehnicka sredstva u vreme obrade". Ovo je tehnoloski relativan standard. Danasnji anonimni podaci mozda nece ostati takvi kako se metode ponovne identifikacije poboljsavaju.
ANPD dodaje vise smernica. Uklanjanje direktnih identifikatora kao sto su CPF i ime nije dovoljno. Grupe kvaziidentifikatora i dalje mogu omoguciti ponovnu identifikaciju. Starosni raspon, grad, pol i radno mesto zajedno mogu identifikovati osobu. Ovi moraju biti tretirani grupisanjem ili dodavanjem suma.
Za podatke za AI obuku, ANPD zahteva jedan od tri uslova. Prvo: podaci ispunjavaju standard iz clana 12. Drugo: svaki subjekt podataka dao je eksplicitan pristanak za specificnu upotrebu u obuci. Trece: postoji valjana dokumentovana svrha.
Zahtevi za portugalski jezik
Brazilski portugalski razlikuje se od evropskog portugalskog. Reci, pravopis i oblici dokumenata nisu isti. NLP modeli trenirani na tekstu iz Portugala dostizu oko 71% tacnosti modela treniranih na lokalnom tekstu. Ovo proistice iz ANPD tehnicke procene.
Kljucne razlike za PII detekciju:
- Imena: Koristenje dvostrukih prezimena i redosled imena razlikuju se od Portugala.
- Adrese: CEP kodovi koriste format XXXXX-XXX. Ovaj format je jedinstven za ovu zemlju. Zahteva sopstvenu logiku detekcije.
- Nazivi dokumenata: "Carteira de Identidade" ovde nasuprot "Bilhete de Identidade" u Portugalu. Nazivi agencija se takodje razlikuju.
Sta zahteva uskladjenost sa ANPD
Cetiri tehnicke potrebe pokrivaju uskladjenost sa ANPD. Detekcija CPF i CNPJ mora ukljucivati dvostepenu validaciju kontrolne cifre. Detekcija RG mora pokrivati sve drzave. Takodje su potrebni detekcija SUS broja i Titulo de Eleitor. NLP modeli moraju biti trenirani na lokalnom portugalskom tekstu.
Pogledjte nas vodic za globalnu detekciju PII identifikatora i LGPD akcije primene u 2024..