By · Last updated 2026-06-05

Takaisin BlogiinGDPR & Vaatimustenmukaisuus

LGPD Brasilia: CPF, CNPJ ja Tietosuoja

LGPD kattaa 215 miljoonaa brasilialaista ja ANPD aloitti merkittävän täytäntöönpanon vuonna 2024. Englanninkieliset NLP-työkalut tunnistavat CPF:n vain 45 %:n tarkkuudella.

June 5, 20268 min lukuaika
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Brasilia: CPF, CNPJ ja Tietosuoja

Brasilian Lei Geral de Proteção de Dados (LGPD) kattaa 215 miljoonaa ihmistä. Se on maailman kolmanneksi suurin tietosuojalaki väestömäärältään. Se kattaa enemmän ihmisiä kuin Saksa, Ranska ja Yhdistynyt kuningaskunta yhteensä. Autoridade Nacional de Proteção de Dados (ANPD) antoi ensimmäiset merkittävät sakkonsa vuonna 2024. Siirtymäaika LGPD:n vuoden 2020 voimaantulon jälkeen on ohi.

On myös tekninen haaste. LGPD-asiakirjat ovat brasilialaisella portugalilla. Brasilian kansallistunnisteet eroavat Portugalia käyttämistä tunnisteista. Ne eroavat myös minkä tahansa muun maan tunnisteista.

Miksi Brasilialainen Henkilötieto on Erilainen

Brasilian liittovaltion ja osavaltion tunnistejärjestelmät ovat erkaantuneet eurooppalaisista digitaalisista henkilöllisyysjärjestelmistä. Tämä loi ainutlaatuisen joukon tunnisteita. Useimmat NLP-työkalut on koulutettu englanninkielisellä tai eurooppalaisella aineistolla. Ne eivät tunnista paikallisia henkilökortteja.

CPF (Cadastro de Pessoas Físicas): 11-numeroinen veronumeronumero. Muoto: XXX.XXX.XXX-XX. Siinä on kaksi tarkistusnumeroa. Kaava käyttää kahta erillistä matemaattista vaihetta. Molempien on täsmättävä, jotta CPF on voimassa.

Tunnistusaukko on suuri. Englanninkielisillä NLP-työkaluilla koulutetut mallit tunnistavat CPF:n vain 45 %:n tarkkuudella (ANPD, 2024). Kaksi syytä selittää tämän. Ensinnäkin työkalut, jotka täsmäyttävät 11-numeroisia lukuja ilman kaksivaiheista tarkistusnumerologiikkaa, sekoittavat kelvolliset CPF-numerot satunnaisiin lukujonoihin. Toiseksi CPF:stä puuttuu joskus XXX.XXX.XXX-XX-muoto. Tämä tapahtuu OCR-tulosteessa ja pelkkätekstimuodossa.

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-numeroinen yritystunnus. Muoto: XX.XXX.XXX/XXXX-XX. Siinä on myös kaksi tarkistusnumeroa. Kaava on samanlainen kuin CPF:ssä, mutta ei identtinen.

RG (Registro Geral): Osavaltion siviilihenkilökortti. Muoto vaihtelee osavaltiosta riippuen. São Paulo käyttää 2 kirjainta ja 5–9 numeroa. Rio de Janeiro käyttää 7–8 numeroa ja viivaa. Minas Gerais käyttää 7–9 numeroa. Muilla osavaltioilla on omat muotonsa. Työkalu, joka tuntee vain yhden osavaltion RG:n, jättää suurimman osan RG-numeroista tunnistamatta.

CNH (Carteira Nacional de Habilitação): 11-numeroinen ajokorttinumero. Siinä on yksi tarkistusnumero. Muoto sisältää piirrikoodin.

Título de Eleitor: 12-numeroinen äänestäjäkortin numero. Siinä on kolme osaa: 8-numeroinen tunnuskoodi, 2-numeroinen osavaltion koodi ja 2 tarkistusnumeroa.

SUS-numero (Cartão SUS): 15-numeroinen julkisen terveydenhuollon tunnus. Jokainen maan asukas saa sellaisen. Se esiintyy kaikissa sairaala- ja kliniikkatietueissa.

PIS/PASEP: 11-numeroinen sosiaaliohjelmanumero. Se esiintyy jokaisessa työsuhdetietueessa.

LGPD:n Anonymisointistandardi

LGPD:n 12 artikla määrittelee anonyymit tiedot. Standardi: tiedot, "joita ei voida tunnistaa ottaen huomioon käsittelyn aikaan saatavilla olevat kohtuulliset tekniset keinot". Tämä on teknologiasuhteinen standardi. Tämän päivän anonyymit tiedot eivät välttämättä pysy sellaisina, kun uudelleentunnistamismenetelmät kehittyvät.

ANPD lisää lisäohjeita. Suorien tunnisteiden, kuten CPF:n ja nimen, poistaminen ei riitä. Kvasitunnisteiden ryhmät voivat silti mahdollistaa uudelleentunnistamisen. Ikäryhmä, kaupunki, sukupuoli ja ammatti yhdessä saattavat tunnistaa henkilön. Näitä on käsiteltävä ryhmittelyllä tai kohinan lisäämisellä.

Tekoälykoulutusaineistoja varten ANPD edellyttää yhtä kolmesta ehdosta. Ensinnäkin: tiedot täyttävät 12 artiklan standardin. Toiseksi: jokainen rekisteröity antoi nimenomaisen suostumuksen kyseistä koulutuskäyttöä varten. Kolmanneksi: on olemassa pätevä dokumentoitu tarkoitus.

Portugalilainen Kielivaatimus

Brasilian portugali eroaa eurooppalaisesta portugalista. Sanat, oikeinkirjoitus ja asiakirjamuodot eivät ole samat. Portugalin tekstillä koulutetut NLP-mallit saavuttavat noin 71 % paikallisella tekstillä koulutettujen mallien tarkkuudesta. Tämä tulee ANPD:n teknisestä arvioinnista.

Henkilötietojen tunnistuksen keskeisiä eroja:

  • Nimet: Kaksoissukupuolikäyttö ja nimijärjestys eroavat Portugalista.
  • Osoitteet: CEP-koodit käyttävät muotoa XXXXX-XXX. Tämä muoto on ainutlaatuinen maalle. Se tarvitsee oman tunnistuslogiikkansa.
  • Asiakirjatermit: "Carteira de Identidade" täällä vs. "Bilhete de Identidade" Portugalissa. Viranomaisnimet eroavat myös toisistaan.

Mitä ANPD:n Vaatimustenmukaisuus Vaatii

Neljä teknistä vaatimusta kattavat ANPD:n vaatimustenmukaisuuden. CPF- ja CNPJ-tunnistuksen on sisällettävä kaksivaiheinen tarkistusnumerovalidointi. RG-tunnistuksen on katettava kaikki osavaltiot. SUS-numeron ja Título de Eleitorin tunnistus on myös pakollinen. NLP-mallien on oltava koulutettuja paikallisella portugalinkielisellä tekstillä.

Katso opas globaalista henkilötietojen tunnistuksesta ja LGPD:n täytäntöönpanotoimista vuonna 2024.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.