LGPD Brasilien: CPF, CNPJ och dataskydd
Brasiliens Lei Geral de Proteção de Dados (LGPD) täcker 215 miljoner människor — världens tredje största dataskyddslag sett till befolkning. Den täcker fler människor än Tyskland, Frankrike och Storbritannien tillsammans. Autoridade Nacional de Proteção de Dados (ANPD) utfärdade sina första stora böter 2024. Övergångsperioden efter LGPD:s ikraftträdande 2020 är förbi.
Det finns också en teknisk utmaning. LGPD-dokument är på brasiliansk portugisiska. Nationella ID-nummer i Brasilien skiljer sig från dem i Portugal — och från alla andra länders ID-nummer.
Varför brasiliansk PII är unik
Brasiliens federala och delstatliga ID-system utvecklades separat från europeiska digitala identitetssystem, vilket skapade en unik uppsättning identifierare. De flesta NLP-verktyg är tränade på engelska eller europeiska data och misslyckas med att detektera lokala ID:n.
CPF (Cadastro de Pessoas Físicas): Det 11-siffriga skattenumret. Format: XXX.XXX.XXX-XX. Det har två kontrollsiffror. Formeln använder två separata matematiska steg. Båda måste stämma för att CPF:et ska vara giltigt.
Detekteringsluckan är stor. Engelsktränade NLP-verktyg detekterar CPF med bara 45 % noggrannhet (ANPD, 2024). Två skäl förklarar detta. Dels förväxlar verktyg som matchar 11-siffriga tal utan den tvåstegs-kontrollsifferlogiken giltiga CPF-nummer med slumpmässiga sekvenser. Dels saknar CPF ibland formatet XXX.XXX.XXX-XX — vilket förekommer i OCR-utdata och fritext.
CNPJ (Cadastro Nacional da Pessoa Jurídica): Det 14-siffriga företags-ID-numret. Format: XX.XXX.XXX/XXXX-XX. Det har också två kontrollsiffror. Formeln liknar CPF men är inte identisk.
RG (Registro Geral): Det statliga ID-kortet för medborgare. Formatet varierar per delstat. São Paulo använder 2 bokstäver och 5–9 siffror. Rio de Janeiro använder 7–8 siffror med ett bindestreck. Minas Gerais använder 7–9 siffror. Andra delstater har sina egna format. Ett verktyg som bara känner till en delstats RG-format missar de flesta RG-nummer.
CNH (Carteira Nacional de Habilitação): Det 11-siffriga körkortsnumret med en kontrollsiffra och en distriktskod.
Título de Eleitor: Det 12-siffriga väljar-ID-numret med tre delar: en 8-siffrig ID-kod, en 2-siffrig statskod och 2 kontrollsiffror.
SUS-nummer (Cartão SUS): Det 15-siffriga folkhälso-ID:t. Varje person i landet tilldelas ett och det förekommer i alla sjukhus- och klinikjournaler.
PIS/PASEP: Det 11-siffriga socialförsäkringsnumret som förekommer i varje anställningsjournal.
LGPD:s anonymiseringsstandard
LGPD artikel 12 definierar anonym data. Standarden: data som "inte kan identifieras, med hänsyn till rimliga tekniska metoder vid behandlingstillfället." Det är en teknikrelativ standard — vad som är anonymt idag kan upphöra att vara det när återidentifieringsmetoderna förbättras.
ANPD ger ytterligare vägledning. Att ta bort direkta identifierare som CPF och namn räcker inte. Grupper av kvasiidentifierare kan fortfarande möjliggöra återidentifiering. Åldersintervall, stad, kön och yrke tillsammans kan identifiera en person — dessa måste hanteras genom gruppering eller brusläggning.
För AI-träningsdata kräver ANPD ett av tre villkor. Antingen uppfyller data artikel 12-standarden, eller har varje registrerad gett uttryckligt samtycke till den specifika träningsanvändningen, eller finns ett giltigt dokumenterat ändamål.
Krav på portugisisk språkhantering
Brasiliansk portugisiska skiljer sig från europeisk portugisiska — ord, stavning och dokumentformer är inte desamma. NLP-modeller tränade på Portugal-text når ungefär 71 % av noggrannheten jämfört med modeller tränade på lokalt data. Detta framgår av ANPD:s tekniska bedömning.
Viktigaste skillnaderna för PII-detektering:
- Namn: Dubbla efternamn och namnordning skiljer sig från Portugal.
- Adresser: CEP-koder använder formatet XXXXX-XXX — ett format unikt för landet som kräver egen detekteringslogik.
- Dokumenttermer: "Carteira de Identidade" här vs. "Bilhete de Identidade" i Portugal. Myndigheternas namn skiljer sig också.
Vad ANPD-compliance kräver
Fyra tekniska behov täcker ANPD-compliance. CPF- och CNPJ-detektering måste inkludera tvåstegs-kontrollsiffervalidering. RG-detektering måste täcka alla delstater. SUS-nummer och Título de Eleitor-detektering krävs också. NLP-modeller måste vara tränade på lokal portugisisk text.
Se vår guide om global PII-identifierardetektering och LGPD-tillsynsåtgärder 2024.