LGPD Brasillie: CPF, CNPJ, en Databeskerming
Brasillie se Lei Geral de Protecao de Dados (LGPD) dek 215 miljoen mense. Dit is die wereld se derde grootste databeskermingswet per bevolking. Dit dek meer mense as Duitsland, Frankryk, en die VK saam. Die Autoridade Nacional de Protecao de Dados (ANPD) het sy eerste groot boetes in 2024 uitgedeel. Die graasingtyd na LGPD se inwerkingtreding in 2020 is verby.
Daar is ook 'n tegniese uitdaging. LGPD-dokumente is in Brasiliaanse Portugees. Nasionale ID's in Brasillie verskil van die in Portugal. Dit verskil ook van enige ander land se ID's.
Waarom Brasiliaanse PII Verskillend Is
Brasillie se federale en deelstaatse ID-stelsels het afsonderlik van Europese digitale identiteitststelsels gegroei. Dit het 'n unieke stel identifiseerders geskep. Die meeste NLP-instrumente word op Engels of Europese data opgelei. Hulle misluk om plaaslike ID's op te spoor.
CPF (Cadastro de Pessoas Fisicas): Die 11-syfer belastingbetalernommer. Formaat: XXX.XXX.XXX-XX. Dit het twee kontrolesyfers. Die formule gebruik twee afsonderlike wiskundestappe. Albei moet ooreenstem vir die CPF om geldig te wees.
Die opsporingsgaping is groot. Engels-opgeleide NLP-instrumente spoor CPF slegs met 45% akkuraatheid op (ANPD, 2024). Twee redes verduidelik dit. Eerstens verwar instrumente wat 11-syfer-nommers sonder die twee-stap-kontrolesyfer-logika pas, geldige CPF-nommers met ewekansige reekse. Tweedens ontbreek CPF soms die XXX.XXX.XXX-XX-formaat. Dit gebeur in OCR-uitvoer en gewone-teks-vorms.
CNPJ (Cadastro Nacional da Pessoa Juridica): Die 14-syfer maatskappy-ID-nommer. Formaat: XX.XXX.XXX/XXXX-XX. Dit het ook twee kontrolesyfers. Die formule is soortgelyk aan CPF maar nie dieselfde nie.
RG (Registro Geral): Die deelstaat burgerlike ID-kaart. Die formaat wissel per deelstaat. Sao Paulo gebruik 2 letters en 5-9 syfers. Rio de Janeiro gebruik 7-8 syfers met 'n koppelteken. Minas Gerais gebruik 7-9 syfers. Ander deelstate het hul eie formate. 'n Instrument wat slegs een deelstaat se RG ken, sal die meeste RG-nommers mis.
CNH (Carteira Nacional de Habilitacao): Die 11-syfer-rybewys-nommer. Dit het een kontrolesyfer. Die formaat sluit 'n distrikskode in.
Titulo de Eleitor: Die 12-syfer-kieserskaart-nommer. Dit het drie dele: 'n 8-syfer-ID-kode, 'n 2-syfer-deelstaatkode, en 2 kontrolesyfers.
SUS-nommer (Cartao SUS): Die 15-syfer openbare gesondheids-ID. Elke persoon in die land kry een. Dit verskyn in alle hospitaal- en kliniekrekords.
PIS/PASEP: Die 11-syfer sosiale program-nommer. Dit verskyn in elke indiensname-rekord.
LGPD-anonimiseringsstandaard
LGPD Artikel 12 definieer anonieme data. Die standaard: data "kan nie geidentifiseer word nie, met inagneming van redelike tegniese middele ten tyde van verwerking." Dit is 'n tegnologierelat iewe standaard. Vandag se anonieme data kan nie so bly soos her-ID-metodes verbeter nie.
ANPD voeg meer leiding by. Die verwydering van direkte identifiseerders soos CPF en naam is nie genoeg nie. Groepe kwasi-identifiseerders kan steeds heridentifikasie moontlik maak. Ouderdomsreeks, stad, geslag, en werk kan saam 'n persoon identifiseer. Hierdie moet deur groepering of ruistoevoeging hanteer word.
Vir KI-opleidingsdata vereis ANPD een van drie voorwaardes. Eerste: data voldoen aan die Artikel 12-standaard. Tweede: elke datasubjek het uitdruklike toestemming gegee vir die spesifieke opleidingsgebruik. Derde: daar is 'n geldige gedokumenteerde doel.
Portugese Taalvereistes
Brasiliaanse Portugees verskil van Europese Portugees. Die woorde, spelling, en dokumentvorms is nie dieselfde nie. NLP-modelle opgelei op Portugal-teks bereik ongeveer 71% van die akkuraatheid van modelle opgelei op plaaslike teks. Dit kom van die ANPD-tegniese beoordeling.
Sleutelverskille vir PII-opsporing:
- Name: Dubbel-van-gebruik en naamvolgorde verskil van Portugal.
- Adresse: CEP-kodes gebruik die formaat XXXXX-XXX. Hierdie formaat is uniek aan die land. Dit benodig sy eie opsporing-logika.
- Dokumentterme: "Carteira de Identidade" hier teenoor "Bilhete de Identidade" in Portugal. Agentskappe se name verskil ook.
Wat ANPD-nakoming Benodig
Vier tegniese behoeftes dek ANPD-nakoming. CPF- en CNPJ-opsporing moet twee-stap-kontrolesyfer-validasie insluit. RG-opsporing moet alle deelstate dek. SUS-nommer- en Titulo de Eleitor-opsporing word ook vereis. NLP-modelle moet op plaaslike Portugees opgelei word.
Sien ons gids oor globale PII-identifiseerder-opsporing en LGPD-handhawingsaksies in 2024.