LGPD Brazilija: CPF, CNPJ un datu aizsardziba
Brazilijas Lei Geral de Proteção de Dados (LGPD) aptver 215 miljonus cilvèku. Tà ir pasaules tresais lielàkais datu aizsardzibas likums pèc iedzivotàju skaita. Tà aptver vairày cilvèku neka Vàcija, Francija un Lielbritànija kopà. Autoridade Nacional de Proteção de Dados (ANPD) izdeva pirmàs nozimigàS sankcijas 2024. gadà. Garas periods pèc LGPD pieñemSanas 2020. gadà ir beidzies.
Pastàv ari tehniSkà problème. LGPD dokumenti ir braziliesu portugàLu valodà. Nacionàlie ID Brazìlijà atšKiras no tiem Portugàle. Tie ari atšKiras no jebkuras citas valsts ID.
Kapèc brazilieSu PII ir atšKirigs
Brazilijas federàlo un Statu ID sistèmas attàlinàjàs no EiropaskìS digitàlàs identitàtes sistèmàm. Tà izveidojàS unikàla identifikatoru kopa. Vairums NLP riku ir apmàcìti uz angLu vai Eiropas datiem. Tie nespèj atklàt vietèjos ID.
CPF (Cadastro de Pessoas Físicas): 11 ciparu nodoklu mokàtàja numurs. Formàts: XXX.XXX.XXX-XX. Tam ir divi pàrbaudes cipari. Formula izmanto divus atseviSKus matemàtikas soLus. Abiem ir jàsakrìt, lai CPF bùtu derigs.
AtklaSanas plaisa ir liela. AngLu apmàcìtie NLP riki atklàj CPF ar tikai 45% precizitàti (ANPD, 2024). Divi iemesli izskaidro to. Pirmkàrt, riki, kas saskaña 11 ciparu numurus bez divu soLu pàrbaudes cipara logiku, sajauC derigus CPF numurus ar nejausàm secibàm. Otrkàrt, CPF dazreiz trùkst formàts XXX.XXX.XXX-XX. Tas notiek OCR izejdatos un teksta veidlapàs.
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14 ciparu uznemuma ID numurs. Formàts: XX.XXX.XXX/XXXX-XX. Tam ari ir divi pàrbaudes cipari. Formula ir lìdziga CPF, bet ne identiska.
RG (Registro Geral): Statu pilsoniskàs ID karte. Formàts atšKiras pèc Stata. Sàu Paulo izmanto 2 burtus un 5-9 ciparus. Rio de Žaneiro izmanto 7-8 ciparus ar svìtru. Minas Žeraiss izmanto 7-9 ciparus. Citiem Statiem ir savi formàti. Riks, kas pazìst tikai viena Stata RG, palaidìs garâm vairums RG numuru.
CNH (Carteira Nacional de Habilitação): 11 ciparu autovadìtàja apliecibas numurs. Tam ir viens pàrbaudes cipars. Formàtà ir iekLauts rajona kods.
Título de Eleitor: 12 ciparu vèlètàja ID numurs. Tam ir trìs daLas: 8 ciparu ID kods, 2 ciparu Stata kods un 2 pàrbaudes cipari.
SUS numurs (Cartão SUS): 15 ciparu valsts veselibas ID. Katrs cilvèks valstì to sane. ParàdàS visos slimnicas un klìnikas ierakstos.
PIS/PASEP: 11 ciparu sociàlàs programmas numurs. ParàdàS katrà nodarbinàtibas ierakstà.
LGPD anonimizàcijas standarts
LGPD 12. pants definè anonìmus datus. Standarts: dati "nevar tikt identificèti, ñemot vèrà saprOtigos tehniskos lidzekLus apstrSades laikà". Tas ir tehnoloGijai relatìvs standarts. SodienàS anonìmie dati var nemainìgiem nepalikt, uzlabojoties re-identifikàcijas metodèm.
ANPD sniedz papildu norSolumus. TieSo identifikatoru kà CPF un vàrda nodzèSana nav pietiekama. Kvazi-identifikatoru grupas joprojam var atLaut re-identifikàciju. Vecuma diapazons, pilsèta, dzimums un darbs kopà var identificèt personu. Tie ir jàapstrSadà, grupèjot vai pievienojot trokSnis.
AI apmàcibas datiem ANPD prasa vienu no trim nosacìjumiem. Pirmkàrt: dati atbilst 12. panta standartam. Otrkàrt: katra datu subjekts deva skaidru piekriSanu konkrètai apmàcibas izmantošanai. TreSàm: pastàv derìgs dokumentèts mèrKis.
PortugàLu valodas prasibas
BrazilijESu portugàLu valoda atšKiras no Eiropas portugàLu valodas. Vàrdi, pareizrakstìba un dokumentu formas nav vienàdas. NLP modeLi, kas apmàcìti uz Portugàles tekstiem, sasniedz aptuveni 71% precizitàtes salìdzinàjumà ar modeLiem, kas apmàcìti uz vietèjiem tekstiem. Tas nàk no ANPD tehniSkà novèrtèjuma.
Galvenàs atšKiribas PII atklaSanai:
- Vàrdi: DivkàrSa uzvàrda izmantošana un vàrda kàrtiba atšKiras no Portugàles.
- Adreses: CEP kodi izmanto formàtu XXXXX-XXX. Šis formàts ir unikàls valstij. Tam ir vajadziga sava atklaSanas logika.
- Dokumentu termini: Siet ir "Carteira de Identidade" pret "Bilhete de Identidade" Portugàlè. Agentu nosaukumi ari atšKiras.
Ko ANPD atbilstiba prasa
Cetras tehniSkàs vajadzibas aptver ANPD atbilstibu. CPF un CNPJ atklaSanai ir jàietver divu soLu pàrbaudes cipara validàcija. RG atklaSanai ir jàaptver visi Statu. SUS numura un Título de Eleitor atklaSana ir ari vajadziga. NLP modeLiem ir jàbut apmàcìtiem uz vietèjo portugàLu valodas tekstiem.
Skatiet musu rokasgrâmatu par globàlo PII identifikatoru atklaSanu un LGPD izpildes darbìbàm 2024. gadà.