By · Last updated 2026-05-18

Takaisin BlogiinGDPR & Vaatimustenmukaisuus

LGPD ja Brasilialainen Portugali PII...

LGPD kattaa 215 miljoonaa brasilialaista ja ANPD aloitti merkittävän valvonnan vuonna 2024.

May 18, 20268 min lukuaika
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

Brasilian yleinen tietosuojalaki (LGPD) on maailman kolmanneksi suurin tietosuojakehys väestön mukaan — 215 miljoonaa brasilialaista, enemmän kuin Saksa, Ranska ja Iso-Britannia yhteensä. Kansallinen tietosuojaviranomainen (ANPD) julkaisi ensimmäiset merkittävät valvontatoimenpiteensä vuonna 2024, mikä merkitsi armonaikakauden päättymistä LGPD:n voimaantulon jälkeen vuonna 2020.

Tekninen vaatimustenmukaisuushaaste on erityinen: Brasilian portugali on LGPD:n kattamien asiakirjojen kieli, mutta brasilialaiset kansalliset tunnisteet ovat täysin erilaisia kuin eurooppalaiset portugalinkieliset tunnisteet — ja mistään muusta kansallisesta tunnistamisjärjestelmästä maailmassa.

Miksi Brasilian PII on teknisesti erilaista

Brasilian liittovaltion ja osavaltion tunnistusjärjestelmät kehittyivät erikseen eurooppalaisista digitaalisista identiteettikehyksistä. Tulos on monimutkainen joukko tunnisteita, joita yleiset NLP-työkalut — useimmat koulutettu englannin tai eurooppalaisten kielidatan avulla — eivät pysty havaitsemaan:

CPF (Cadastro de Pessoas Físicas): 11-numeroisen yksittäisen verovelvollisen rekisteröinti on Brasilian yleinen kansalaisidentifikaattori. Muoto: XXX.XXX.XXX-XX, jossa on kaksi tarkistussummaa. CPF:n tarkistussumman algoritmi käyttää kahta erillistä modulaarista laskentaa — jos molemmat tarkistussummat täsmäävät, CPF on voimassa.

Tekninen ongelma: CPF havaitaan vain 45 % tarkkuudella englanninkielisillä NLP-työkaluilla (ANPD:n tekninen arviointi 2024). Epäonnistumiset: työkalut, jotka mallitunnistavat 11-numeroisia lukuja ilman kahta vaihetta tarkistussumman vahvistamista, eivät voi erottaa voimassa olevia CPF-numeroita satunnaisista sekvensseistä; ja CPF esiintyy brasilialaisissa asiakirjoissa ilman standardimuotoa XXX.XXX.XXX-XX joissakin konteksteissa (OCR-tuloste, tavalliset tekstimuodot).

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-numeroisen yrityksen rekisteröintinumero. Muoto: XX.XXX.XXX/XXXX-XX, jossa on kaksi tarkistussummaa, jotka käyttävät samanlaisia (mutta eivät identtisiä) algoritmeja kuin CPF.

RG (Registro Geral): Brasilian osavaltion myöntämä kansalaisidentiteettiasiakirja. Toisin kuin CPF (liittovaltion, yhtenäinen), RG:n muoto vaihtelee myöntöosavaltion mukaan:

  • São Paulo: 2 kirjainta + 5-9 numeroa (esim. MG-12.345.678)
  • Rio de Janeiro: 7-8 numeroa viivalla
  • Minas Gerais: 7-9 numeroa
  • Muut osavaltiot: erilaiset muodot

Työkalu, joka tunnistaa vain yhden osavaltion RG-muodon, jättää huomiotta suurimman osan RG-numeroista brasilialaisissa asiakirjoissa.

CNH (Carteira Nacional de Habilitação): 11-numeroisen ajokorttinumeron tarkistussumma. CNH myönnetään liittovaltion tasolla, mutta muoto sisältää rekisteröintipiirin koodauksen.

Título de Eleitor (äänestäjätunnistus): 12-numeroista numeroa, jossa on 3 osaa — tunnistuskoodi (8 numeroa), osavaltiokoodi (2 numeroa), tarkistussummat (2 numeroa).

SUS-numero (Cartão SUS): 15-numeroista yhtenäistä terveydenhuoltojärjestelmän numeroa, joka on myönnetty jokaiselle brasilialaiselle julkiseen terveydenhuoltoon pääsyä varten. Esiintyy julkisissa sairaaloissa ja perusterveydenhuollon asiakirjoissa.

PIS/PASEP: 11-numeroista sosiaalisen integraation ohjelman numeroa, jota käytetään kaikissa työsuhteissa.

LGPD:n anonymisointistandardi

LGPD:n artikla 12 määrittelee anonyymit tiedot tiedoiksi, "jotka liittyvät rekisteröityyn henkilöön, jota ei voida tunnistaa, ottaen huomioon käsittelyn aikana käytettävissä olevat kohtuulliset tekniset keinot." Tämä on teknologiarajainen standardi — mikä on tänään anonyymi, ei välttämättä ole anonyymi, kun tulevat uudelleen tunnistamistekniikat kehittyvät.

ANPD:n ohjeet selventävät, että anonymisointi vaatii enemmän kuin vain eksplisiittisten tunnisteiden (CPF, nimi) poistamista. Kvasi-tunnisteyhdistelmät (ikähaarukka, kunnallinen, sukupuoli, ammatti) voivat mahdollistaa uudelleen tunnistamisen ja ne on käsiteltävä yleistämällä tai lisäämällä melua.

AI-koulutusdataa varten ANPD vaatii, että LLM:ien tai ML-mallien koulutuksessa käytettävät tiedot joko:

  • Ovat aidosti anonymisoituja (täyttävät artiklan 12 tekniset vaatimukset), TAI
  • Ovat saaneet eksplisiittisen suostumuksen jokaiselta rekisteröidyltä henkilöltä tiettyä koulutuskäyttöä varten, TAI
  • Täyttävät laillisen tarkoituksen asiakirjatodistuksella

Brasilian Portugali Kielen Vaatimukset

Brasilian portugali eroaa eurooppalaisesta portugalista sanastoltaan, oikeinkirjoitukseltaan ja asiakirjakäytännöiltään. Eurooppalaisella portugalilla (Portugali) koulutetut NLP-mallit toimivat noin 71 % tarkkuudella verrattuna erityisesti brasilialaisen portugalin tekstille koulutettuihin malleihin (ANPD:n tekninen arviointi).

Erityiset erot, jotka ovat merkityksellisiä PII-tunnistuksessa:

  • Nimikonventiot: Brasilialaiset nimet seuraavat erilaisia kaavoja kuin portugalilaiset nimet. Yleiset brasilialaiset sukunimet (Silva, Santos, Oliveira, Souza) ovat samat, mutta nimeämiskäytännöt (kaksinkertaiset sukunimet, järjestyspreferenssit) eroavat.
  • Osoitemuodot: Brasilian osoitteet käyttävät "Rua," "Avenida," "Alameda," "Travessa" samalla tavalla kuin Portugalissa, mutta CEP-postinumerot (8-numeroista muotoa: XXXXX-XXX) ovat Brasilian erityisiä ja vaativat brasilialaisen postinumerotunnistuksen.
  • Asiakirjaterminologia: Brasilian asiakirjat käyttävät eri terminologiaa eurooppalaisesta portugalista — "Carteira de Identidade" vs. "Bilhete de Identidade" kansalliselle henkilökortille, eri hallintoviranomaisten nimiä eri puolilla.

LGPD:n vaatimustenmukaisuudelle: CPF ja CNPJ, joissa on kaksivaiheinen tarkistussumman vahvistaminen, moniosavaltion RG-muodon tunnistus, SUS-numero ja Título de Eleitorin tunnistus, sekä brasilialaisen portugalin NLP-mallin tuki ovat tekninen perusta ANPD:n vaatimustenmukaisuudelle.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.