By · Last updated 2026-06-05

Tillbaka till BloggenGDPR & Efterlevnad

LGPD Brasilien: CPF, CNPJ och dataskydd

LGPD täcker 215 miljoner brasilianare och ANPD inledde stor tillsyn 2024. CPF detekteras med bara 45 % noggrannhet av engelsktränade verktyg.

June 5, 20268 min läsning
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasilien: CPF, CNPJ och dataskydd

Brasiliens Lei Geral de Proteção de Dados (LGPD) täcker 215 miljoner människor — världens tredje största dataskyddslag sett till befolkning. Den täcker fler människor än Tyskland, Frankrike och Storbritannien tillsammans. Autoridade Nacional de Proteção de Dados (ANPD) utfärdade sina första stora böter 2024. Övergångsperioden efter LGPD:s ikraftträdande 2020 är förbi.

Det finns också en teknisk utmaning. LGPD-dokument är på brasiliansk portugisiska. Nationella ID-nummer i Brasilien skiljer sig från dem i Portugal — och från alla andra länders ID-nummer.

Varför brasiliansk PII är unik

Brasiliens federala och delstatliga ID-system utvecklades separat från europeiska digitala identitetssystem, vilket skapade en unik uppsättning identifierare. De flesta NLP-verktyg är tränade på engelska eller europeiska data och misslyckas med att detektera lokala ID:n.

CPF (Cadastro de Pessoas Físicas): Det 11-siffriga skattenumret. Format: XXX.XXX.XXX-XX. Det har två kontrollsiffror. Formeln använder två separata matematiska steg. Båda måste stämma för att CPF:et ska vara giltigt.

Detekteringsluckan är stor. Engelsktränade NLP-verktyg detekterar CPF med bara 45 % noggrannhet (ANPD, 2024). Två skäl förklarar detta. Dels förväxlar verktyg som matchar 11-siffriga tal utan den tvåstegs-kontrollsifferlogiken giltiga CPF-nummer med slumpmässiga sekvenser. Dels saknar CPF ibland formatet XXX.XXX.XXX-XX — vilket förekommer i OCR-utdata och fritext.

CNPJ (Cadastro Nacional da Pessoa Jurídica): Det 14-siffriga företags-ID-numret. Format: XX.XXX.XXX/XXXX-XX. Det har också två kontrollsiffror. Formeln liknar CPF men är inte identisk.

RG (Registro Geral): Det statliga ID-kortet för medborgare. Formatet varierar per delstat. São Paulo använder 2 bokstäver och 5–9 siffror. Rio de Janeiro använder 7–8 siffror med ett bindestreck. Minas Gerais använder 7–9 siffror. Andra delstater har sina egna format. Ett verktyg som bara känner till en delstats RG-format missar de flesta RG-nummer.

CNH (Carteira Nacional de Habilitação): Det 11-siffriga körkortsnumret med en kontrollsiffra och en distriktskod.

Título de Eleitor: Det 12-siffriga väljar-ID-numret med tre delar: en 8-siffrig ID-kod, en 2-siffrig statskod och 2 kontrollsiffror.

SUS-nummer (Cartão SUS): Det 15-siffriga folkhälso-ID:t. Varje person i landet tilldelas ett och det förekommer i alla sjukhus- och klinikjournaler.

PIS/PASEP: Det 11-siffriga socialförsäkringsnumret som förekommer i varje anställningsjournal.

LGPD:s anonymiseringsstandard

LGPD artikel 12 definierar anonym data. Standarden: data som "inte kan identifieras, med hänsyn till rimliga tekniska metoder vid behandlingstillfället." Det är en teknikrelativ standard — vad som är anonymt idag kan upphöra att vara det när återidentifieringsmetoderna förbättras.

ANPD ger ytterligare vägledning. Att ta bort direkta identifierare som CPF och namn räcker inte. Grupper av kvasiidentifierare kan fortfarande möjliggöra återidentifiering. Åldersintervall, stad, kön och yrke tillsammans kan identifiera en person — dessa måste hanteras genom gruppering eller brusläggning.

För AI-träningsdata kräver ANPD ett av tre villkor. Antingen uppfyller data artikel 12-standarden, eller har varje registrerad gett uttryckligt samtycke till den specifika träningsanvändningen, eller finns ett giltigt dokumenterat ändamål.

Krav på portugisisk språkhantering

Brasiliansk portugisiska skiljer sig från europeisk portugisiska — ord, stavning och dokumentformer är inte desamma. NLP-modeller tränade på Portugal-text når ungefär 71 % av noggrannheten jämfört med modeller tränade på lokalt data. Detta framgår av ANPD:s tekniska bedömning.

Viktigaste skillnaderna för PII-detektering:

  • Namn: Dubbla efternamn och namnordning skiljer sig från Portugal.
  • Adresser: CEP-koder använder formatet XXXXX-XXX — ett format unikt för landet som kräver egen detekteringslogik.
  • Dokumenttermer: "Carteira de Identidade" här vs. "Bilhete de Identidade" i Portugal. Myndigheternas namn skiljer sig också.

Vad ANPD-compliance kräver

Fyra tekniska behov täcker ANPD-compliance. CPF- och CNPJ-detektering måste inkludera tvåstegs-kontrollsiffervalidering. RG-detektering måste täcka alla delstater. SUS-nummer och Título de Eleitor-detektering krävs också. NLP-modeller måste vara tränade på lokal portugisisk text.

Se vår guide om global PII-identifierardetektering och LGPD-tillsynsåtgärder 2024.

Källor

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.