Brasils Lei Geral de Proteção de Dados (LGPD) er verdens tredje største databeskyttelsesrammeverk etter befolkning — 215 millioner brasilianere, større enn Tyskland, Frankrike og Storbritannia til sammen. Autoridade Nacional de Proteção de Dados (ANPD) utførte sine første store håndhevelsesaksjoner i 2024, noe som signaliserer slutten på nådeperioden som fulgte etter LGPDs ikrafttredelse i 2020.
Den tekniske overholdelsesutfordringen er særpreget: Brasiliansk portugisisk er språket for LGPD-dekkede dokumenter, men brasilianske nasjonale identifikatorer er helt forskjellige fra europeiske portugisiske identifikatorer — og fra noe annet nasjonalt identifikasjonssystem i verden.
Hvorfor brasiliansk PII er teknisk distinkt
Brasilianske føderale og statlige identifikasjonssystemer har utviklet seg separat fra europeiske digitale identitetsrammer. Resultatet er et komplekst sett med identifikatorer som generiske NLP-verktøy — for det meste trent på engelsk eller europeiske språkdata — ikke klarer å oppdage:
CPF (Cadastro de Pessoas Físicas): Den 11-sifrede individuelle skatteregistreringen er Brasils universelle borgeridentifikator. Format: XXX.XXX.XXX-XX med to kontrollsifre. CPF-kontrollsifferalgoritmen bruker to separate modulære aritmetiske beregninger — hvis begge kontrollsifrene stemmer, er CPF gyldig.
Det tekniske problemet: CPF oppdages med bare 45 % nøyaktighet av verktøy trent på engelsk (ANPD teknisk vurdering 2024). Feilene: verktøy som mønstre matcher 11-sifrede tall uten den to-trinns kontrollsiffervalideringen kan ikke skille gyldige CPF-numre fra tilfeldige sekvenser; og CPF vises i brasilianske dokumenter uten standard XXX.XXX.XXX-XX formatering i noen sammenhenger (OCR-utdata, enkle tekstskjema).
CNPJ (Cadastro Nacional da Pessoa Jurídica): Det 14-sifrede selskapsregistreringsnummeret. Format: XX.XXX.XXX/XXXX-XX med to kontrollsifre som bruker lignende (men ikke identiske) algoritmer som CPF.
RG (Registro Geral): Brasils statlig utstedte sivil identitetsdokument. I motsetning til CPF (føderal, ensartet), varierer RG-formatet etter utstedelsesstat:
- São Paulo: 2 bokstaver + 5-9 sifre (f.eks. MG-12.345.678)
- Rio de Janeiro: 7-8 sifre med bindestrek
- Minas Gerais: 7-9 sifre
- Andre stater: forskjellige formater
Et verktøy som bare gjenkjenner én stats RG-format går glipp av flertallet av RG-numre i brasilianske dokumenter.
CNH (Carteira Nacional de Habilitação): 11-sifret førerkortnummer med kontrollsiffer. CNH utstedes føderalt, men formatet inkluderer registreringsdistriktkoding.
Título de Eleitor (velgerregistrering): 12-sifret nummer med 3 komponenter — identifikasjonskode (8 sifre), statskode (2 sifre), kontrollsifre (2 sifre).
SUS-nummer (Cartão SUS): 15-sifret nummer for det enhetlige helsesystemet tildelt hver brasilianer for tilgang til offentlig helsevesen. Visas gjennom offentlige sykehus- og primærhelsejournaler.
PIS/PASEP: 11-sifret nummer for sosial integrasjonsprogram brukt i alle ansettelsesregistre.
LGPDs anonymiseringsstandard
LGPD Artikkel 12 definerer anonyme data som data "som gjelder den registrerte som ikke kan identifiseres, med tanke på bruk av rimelige tekniske midler tilgjengelig på tidspunktet for behandlingen." Dette er en teknologi-relativ standard — hva som er anonymt i dag, kan ikke være anonymt når fremtidige re-identifikasjonsteknikker utvikles.
ANPDs retningslinjer presiserer at anonymisering krever mer enn å fjerne eksplisitte identifikatorer (CPF, navn). Quasi-identifikator kombinasjoner (aldersgruppe, kommune, kjønn, yrke) kan muliggjøre re-identifikasjon og må adresseres gjennom generalisering eller støytilsetning.
For AI-treningsdata krever ANPD at data brukt til å trene LLM-er eller ML-modeller enten:
- Er genuint anonymisert (oppfyller Artikkel 12s tekniske standard), ELLER
- Har eksplisitt samtykke fra hver registrert for den spesifikke treningsbruken, ELLER
- Kvalifiserer under et legitimt formål med dokumentert begrunnelse
Krav til brasiliansk portugisisk språk
Brasiliansk portugisisk skiller seg fra europeisk portugisisk i ordforråd, staving og dokumentkonvensjoner. NLP-modeller trent på europeisk portugisisk (Portugal) presterer med omtrent 71 % av nøyaktigheten til modeller som er spesifikt trent på brasiliansk portugisisk tekst (ANPD teknisk vurdering).
Spesifikke forskjeller relevante for PII-detektering:
- Navnekonvensjoner: Brasilianske navn følger forskjellige mønstre enn portugisiske navn. Vanlige brasilianske etternavn (Silva, Santos, Oliveira, Souza) er de samme, men navnekonvensjoner (doble etternavn, rekkefølgepreferanser) varierer.
- Adresseformater: Brasilianske adresser bruker "Rua," "Avenida," "Alameda," "Travessa" på lignende måte som Portugal, men CEP-postkoder (8-sifret format: XXXXX-XXX) er Brasil-spesifikke og krever gjenkjenning av brasilianske postkoder.
- Dokumentterminologi: Brasilianske dokumenttyper bruker annen terminologi enn europeisk portugisisk — "Carteira de Identidade" vs. "Bilhete de Identidade" for nasjonal ID, forskjellige navn på offentlige etater gjennomgående.
For LGPD-overholdelse: CPF og CNPJ med to-trinns kontrollsiffervalidering, multi-stat RG-formatgjenkjenning, SUS-nummer og Título de Eleitor-detektering, og støtte for brasiliansk portugisisk NLP-modell er den tekniske basen for ANPD-overholdelse.
Kilder: