anonym.legal

By · Last updated 2026-06-05

Terug na BlogGDPR & Nakoming

LGPD Brasillie: CPF, CNPJ, en Databeskerming

LGPD dek 215 miljoen Brasiliiane en ANPD het in 2024 met groot handhawing begin. CPF word slegs met 45% akkuraatheid deur Engels-opgeleide instrumente opgespoor.

June 5, 20268 min lees
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasillie: CPF, CNPJ, en Databeskerming

Brasillie se Lei Geral de Protecao de Dados (LGPD) dek 215 miljoen mense. Dit is die wereld se derde grootste databeskermingswet per bevolking. Dit dek meer mense as Duitsland, Frankryk, en die VK saam. Die Autoridade Nacional de Protecao de Dados (ANPD) het sy eerste groot boetes in 2024 uitgedeel. Die graasingtyd na LGPD se inwerkingtreding in 2020 is verby.

Daar is ook 'n tegniese uitdaging. LGPD-dokumente is in Brasiliaanse Portugees. Nasionale ID's in Brasillie verskil van die in Portugal. Dit verskil ook van enige ander land se ID's.

Waarom Brasiliaanse PII Verskillend Is

Brasillie se federale en deelstaatse ID-stelsels het afsonderlik van Europese digitale identiteitststelsels gegroei. Dit het 'n unieke stel identifiseerders geskep. Die meeste NLP-instrumente word op Engels of Europese data opgelei. Hulle misluk om plaaslike ID's op te spoor.

CPF (Cadastro de Pessoas Fisicas): Die 11-syfer belastingbetalernommer. Formaat: XXX.XXX.XXX-XX. Dit het twee kontrolesyfers. Die formule gebruik twee afsonderlike wiskundestappe. Albei moet ooreenstem vir die CPF om geldig te wees.

Die opsporingsgaping is groot. Engels-opgeleide NLP-instrumente spoor CPF slegs met 45% akkuraatheid op (ANPD, 2024). Twee redes verduidelik dit. Eerstens verwar instrumente wat 11-syfer-nommers sonder die twee-stap-kontrolesyfer-logika pas, geldige CPF-nommers met ewekansige reekse. Tweedens ontbreek CPF soms die XXX.XXX.XXX-XX-formaat. Dit gebeur in OCR-uitvoer en gewone-teks-vorms.

CNPJ (Cadastro Nacional da Pessoa Juridica): Die 14-syfer maatskappy-ID-nommer. Formaat: XX.XXX.XXX/XXXX-XX. Dit het ook twee kontrolesyfers. Die formule is soortgelyk aan CPF maar nie dieselfde nie.

RG (Registro Geral): Die deelstaat burgerlike ID-kaart. Die formaat wissel per deelstaat. Sao Paulo gebruik 2 letters en 5-9 syfers. Rio de Janeiro gebruik 7-8 syfers met 'n koppelteken. Minas Gerais gebruik 7-9 syfers. Ander deelstate het hul eie formate. 'n Instrument wat slegs een deelstaat se RG ken, sal die meeste RG-nommers mis.

CNH (Carteira Nacional de Habilitacao): Die 11-syfer-rybewys-nommer. Dit het een kontrolesyfer. Die formaat sluit 'n distrikskode in.

Titulo de Eleitor: Die 12-syfer-kieserskaart-nommer. Dit het drie dele: 'n 8-syfer-ID-kode, 'n 2-syfer-deelstaatkode, en 2 kontrolesyfers.

SUS-nommer (Cartao SUS): Die 15-syfer openbare gesondheids-ID. Elke persoon in die land kry een. Dit verskyn in alle hospitaal- en kliniekrekords.

PIS/PASEP: Die 11-syfer sosiale program-nommer. Dit verskyn in elke indiensname-rekord.

LGPD-anonimiseringsstandaard

LGPD Artikel 12 definieer anonieme data. Die standaard: data "kan nie geidentifiseer word nie, met inagneming van redelike tegniese middele ten tyde van verwerking." Dit is 'n tegnologierelat iewe standaard. Vandag se anonieme data kan nie so bly soos her-ID-metodes verbeter nie.

ANPD voeg meer leiding by. Die verwydering van direkte identifiseerders soos CPF en naam is nie genoeg nie. Groepe kwasi-identifiseerders kan steeds heridentifikasie moontlik maak. Ouderdomsreeks, stad, geslag, en werk kan saam 'n persoon identifiseer. Hierdie moet deur groepering of ruistoevoeging hanteer word.

Vir KI-opleidingsdata vereis ANPD een van drie voorwaardes. Eerste: data voldoen aan die Artikel 12-standaard. Tweede: elke datasubjek het uitdruklike toestemming gegee vir die spesifieke opleidingsgebruik. Derde: daar is 'n geldige gedokumenteerde doel.

Portugese Taalvereistes

Brasiliaanse Portugees verskil van Europese Portugees. Die woorde, spelling, en dokumentvorms is nie dieselfde nie. NLP-modelle opgelei op Portugal-teks bereik ongeveer 71% van die akkuraatheid van modelle opgelei op plaaslike teks. Dit kom van die ANPD-tegniese beoordeling.

Sleutelverskille vir PII-opsporing:

  • Name: Dubbel-van-gebruik en naamvolgorde verskil van Portugal.
  • Adresse: CEP-kodes gebruik die formaat XXXXX-XXX. Hierdie formaat is uniek aan die land. Dit benodig sy eie opsporing-logika.
  • Dokumentterme: "Carteira de Identidade" hier teenoor "Bilhete de Identidade" in Portugal. Agentskappe se name verskil ook.

Wat ANPD-nakoming Benodig

Vier tegniese behoeftes dek ANPD-nakoming. CPF- en CNPJ-opsporing moet twee-stap-kontrolesyfer-validasie insluit. RG-opsporing moet alle deelstate dek. SUS-nommer- en Titulo de Eleitor-opsporing word ook vereis. NLP-modelle moet op plaaslike Portugees opgelei word.

Sien ons gids oor globale PII-identifiseerder-opsporing en LGPD-handhawingsaksies in 2024.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.