By · Last updated 2026-06-05

Tagasi BlogisseGDPR ja Vastavus

LGPD Brasiilia: CPF, CNPJ ja andmekaitse

LGPD hõlmab 215 miljonit brasiillast ja ANPD alustas suuri jõustamistoiminguid 2024. aastal. CPF tuvastatakse inglise keelel treenitud tööriistadega vaid 45% täpsusega.

June 5, 20268 min lugemist
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasiilia: CPF, CNPJ ja andmekaitse

Brasiilia Lei Geral de Protecao de Dados (LGPD) hõlmab 215 miljonit inimest. See on maailma kolmas suurim andmekaitseseadus rahvaarvu poolest. See hõlmab rohkem inimesi kui Saksamaa, Prantsusmaa ja Suurbritannia kokku. Autoridade Nacional de Protecao de Dados (ANPD) andis esimesed suured trahvid välja 2024. aastal. LGPD 2020. aasta jõustumise järgne üleminekuperiood on läbi.

On ka tehniline väljakutse. LGPD dokumendid on brasiilia portugali keeles. Brasiilia riiklikud isikukoodid erinevad Portugali omadest. Need erinevad ka kõigi teiste riikide isikukoodidest.

Miks Brasiilia PII on erinev

Brasiilia föderaal- ja osariikide isikukoodide süsteemid kasvasid Euroopa digitaalsete identiteedisüsteemidest lahku. See lõi ainulaadse identifikaatorite kogumi. Enamik NLP tööriistu on treenitud inglise või Euroopa andmetel. Need ei suuda kohalikke isikukoode tuvastada.

CPF (Cadastro de Pessoas Fisicas): 11-kohaline maksumaksja number. Formaat: XXX.XXX.XXX-XX. Sellel on kaks kontrollnumbrit. Valem kasutab kahte eraldi matemaatilist sammu. Mõlemad peavad CPF kehtivuse jaoks sobima.

Tuvastamise lünk on suur. Inglise keelel treenitud NLP tööriistad tuvastavad CPF vaid 45% täpsusega (ANPD, 2024). Kaks põhjust selgitavad seda. Esiteks segavad tööriistad, mis sobitavad 11-kohalisi numbreid ilma kaheastmelise kontrollnumbri loogiketa, kehtivaid CPF numbreid suvaliste järjestustega. Teiseks puudub CPF-il mõnikord XXX.XXX.XXX-XX formaat. See esineb OCR väljundis ja lihttekstivoringutel.

CNPJ (Cadastro Nacional da Pessoa Juridica): 14-kohaline ettevõtte ID-number. Formaat: XX.XXX.XXX/XXXX-XX. Sellel on samuti kaks kontrollnumbrit. Valem sarnaneb CPF-iga, kuid pole sama.

RG (Registro Geral): Osariigi tsiviil-isikutunnistus. Formaat varieerub osariigiti. Sao Paulo kasutab 2 tähte ja 5-9 numbrit. Rio de Janeiro kasutab 7-8 numbrit kriipsuga. Minas Gerais kasutab 7-9 numbrit. Teistel osariikidel on oma formaadid. Tööriist, mis tunneb ainult ühe osariigi RG-d, jätab enamiku RG numbritest märkamata.

CNH (Carteira Nacional de Habilitacao): 11-kohaline juhiloa number. Sellel on üks kontrollnumber. Formaat sisaldab ringkonna koodi.

Titulo de Eleitor: 12-kohaline valijanumber. Sellel on kolm osa: 8-kohaline ID-kood, 2-kohaline osariigikood ja 2 kontrollnumbrit.

SUS number (Cartao SUS): 15-kohaline riikliku tervise ID. Iga riigi inimene saab ühe. See esineb kõigis haigla ja kliiniku aktides.

PIS/PASEP: 11-kohaline sotsiaalpoliitika number. See esineb igas tööhõiveasjas.

LGPD anonümiseerimise standard

LGPD artikkel 12 defineerib anonüümsed andmed. Standard: andmed, mida "ei saa tuvastada, arvestades töötlemise ajal mõistlikke tehnilisi vahendeid". See on tehnoloogiast sõltuv standard. Tänased anonüümsed andmed ei pruugi seda jääda, kuna taasidentifitseerimise meetodid paranevad.

ANPD lisab rohkem juhiseid. Otseste identifikaatorite nagu CPF ja nimi eemaldamine ei piisa. Kvaasi-identifikaatorite rühmad võivad siiski võimaldada taasidentifitseerimist. Vanusvahemik, linn, sugu ja ametikohustused võivad koos inimese tuvastada. Neid tuleb käsitleda grupeerimise või müra lisamisega.

AI treeningandmete jaoks nõuab ANPD ühte kolmest tingimusest. Esiteks: andmed vastavad artikli 12 standardile. Teiseks: iga andmesubjekt andis selgesõnalise nõusoleku konkreetseks treenimiskasutuseks. Kolmandaks: on kehtiv dokumenteeritud eesmärk.

Portugali keele nõuded

Brasiilia portugali keel erineb Euroopa portugali keelest. Soned, kirjaviis ja dokumendi vormid ei ole samad. Portugali tekstil treenitud NLP mudelid saavutavad kohalikul tekstil treenitud mudelite täpsusest umbes 71%. See tuleb ANPD tehnilisest hinnangust.

PII tuvastamise peamised erinevused:

  • Nimed: Topelt-perekonnanime kasutamine ja nime järjekord erinevad Portugali omadest.
  • Aadressid: CEP koodid kasutavad formaati XXXXX-XXX. See formaat on riigile ainuomane. See vajab oma tuvastamisloogikat.
  • Dokumendi terminid: "Carteira de Identidade" siin vs. "Bilhete de Identidade" Portugalis. Asutuse nimed on samuti erinevad.

Mida ANPD vastavus vajab

Neli tehnilist vajadust katavad ANPD vastavuse. CPF ja CNPJ tuvastamine peab sisaldama kaheastmelist kontrollnumbri valideerimist. RG tuvastamine peab katma kõik osariigid. SUS-numbri ja Titulo de Eleitori tuvastamine on samuti nõutud. NLP mudelid peavad olema treenitud kohalikul portugali tekstil.

Vaadake meie juhendit ülemaailmse PII identifikaatorite tuvastamise kohta ja LGPD jõustamistoimingute kohta 2024. aastal.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.