LGPD Brasil: CPF, CNPJ og personvern
Brasilias Lei Geral de Proteção de Dados (LGPD) dekker 215 millioner mennesker. Det er verdens tredje storste personvernlov malt i befolkning. Den dekker flere mennesker enn Tyskland, Frankrike og Storbritannia til sammen. Autoridade Nacional de Proteção de Dados (ANPD) utstedte sine forste store boter i 2024. Overgangsperioden etter LGPDs ikrafttredelse i 2020 er over.
Det er ogsa en teknisk utfordring. LGPD-dokumenter er pa brasiliansk portugisisk. Nasjonale IDer i Brasil skiller seg fra dem i Portugal. De skiller seg ogsa fra ethvert annet lands IDer.
Hvorfor brasiliansk PII er annerledes
Brasilias statlige og federale ID-systemer utviklet seg separat fra europeiske digitale identitetssystemer. Dette skapte et unikt sett med identifikatorer. De fleste NLP-verktoy er trent pa engelske eller europeiske data. De klarer ikke a oppdage lokale IDer.
CPF (Cadastro de Pessoas Fisicas): Det 11-sifrede skattenummeret. Format: XXX.XXX.XXX-XX. Det har to kontrollsifre. Formelen bruker to separate matematiske trinn. Begge ma stemme for CPF-nummeret er gyldig.
Deteksjonsluka er stor. Engelsktrente NLP-verktoy oppdager CPF med bare 45 % noyaktighet (ANPD, 2024). To grunner forklarer dette. For det forste: verktoy som matcher 11-sifrede tall uten totrinnets kontrollsifferlogikk, forveksler gyldige CPF-numre med tilfeldige tallrekker. For det andre: CPF mangler noen ganger formatet XXX.XXX.XXX-XX. Dette skjer i OCR-utdata og tekst i fritekstformat.
CNPJ (Cadastro Nacional da Pessoa Juridica): Det 14-sifrede virksomhets-ID-nummeret. Format: XX.XXX.XXX/XXXX-XX. Det har ogsa to kontrollsifre. Formelen ligner CPF, men er ikke identisk.
RG (Registro Geral): Det statlige sivile ID-kortet. Formatet varierer etter delstat. Sao Paulo bruker 2 bokstaver og 5-9 sifre. Rio de Janeiro bruker 7-8 sifre med en strek. Minas Gerais bruker 7-9 sifre. Andre delstater har sine egne formater. Et verktoy som bare kjenner ett delstats RG, vil ga glipp av de fleste RG-numre.
CNH (Carteira Nacional de Habilitacao): Det 11-sifrede forerkortnummeret. Det har ett kontrollsiffer. Formatet inkluderer en distriktskode.
Titulo de Eleitor: Det 12-sifrede velger-ID-nummeret. Det har tre deler: en 8-sifret ID-kode, en 2-sifret statskode og 2 kontrollsifre.
SUS-nummer (Cartao SUS): Det 15-sifrede offentlige helse-IDet. Alle i landet far ett. Det forekommer i alle sykehus- og klinikkjournaler.
PIS/PASEP: Det 11-sifrede sosiale programnummeret. Det forekommer i alle ansettelsesregistre.
LGPD anonymiseringsstandard
LGPD artikkel 12 definerer anonyme data. Standarden: data "ikke kan identifiseres med rimelige tekniske midler pa behandlingstidspunktet." Dette er en teknologirelativ standard. Dagens anonyme data er ikke nodvendigvis det i morgen nar gjenidentifiseringsmetoder forbedres.
ANPD gir ytterligere veiledning. A fjerne direkte identifikatorer som CPF og navn er ikke nok. Grupper av kvasiidentifikatorer kan fortsatt muliggjore gjenidentifisering. Aldersgruppe, by, kjonn og stilling samlet kan identifisere en person. Disse ma handteres ved gruppering eller stoyaddisjon.
For KI-opplringsdata krever ANPD ett av tre forhold. Forste: data oppfyller artikkel 12-standarden. Andre: hver registrert ga eksplisitt samtykke til den spesifikke opplreringsbruken. Tredje: det foreligger et gyldig dokumentert formal.
Portugisisk-spraklige krav
Brasiliansk portugisisk skiller seg fra europeisk portugisisk. Ord, stavemater og dokumentformer er ikke de samme. NLP-modeller trent pa Portugal-tekst nar omtrent 71 % av noyaktigheten til modeller trent pa lokale data. Dette fremgar av ANPDs tekniske vurdering.
Viktige forskjeller for PII-deteksjon:
- Navn: Bruk av dobbelt etternavn og navnerekkefolge skiller seg fra Portugal.
- Adresser: CEP-koder bruker formatet XXXXX-XXX. Dette formatet er unikt for landet. Det krever egen deteksjonslogikk.
- Dokumentbegreper: "Carteira de Identidade" her mot "Bilhete de Identidade" i Portugal. Myndighetsnavnene er ogsa forskjellige.
Hva ANPD-samsvar krever
Fire tekniske behov dekker ANPD-samsvar. CPF- og CNPJ-deteksjon ma inkludere totrinns kontrollsiffervalidering. RG-deteksjon ma dekke alle delstater. SUS-nummer- og Titulo de Eleitor-deteksjon er ogsa pakreevet. NLP-modeller ma vaere trent pa lokalt portugisisk.
Se var guide for global PII-identifikatordeteksjon og LGPD-handhevelseshandlinger i 2024.