Brasilian yleinen tietosuojalaki (LGPD) on maailman kolmanneksi suurin tietosuojakehys väestön mukaan — 215 miljoonaa brasilialaista, enemmän kuin Saksa, Ranska ja Iso-Britannia yhteensä. Kansallinen tietosuojaviranomainen (ANPD) julkaisi ensimmäiset merkittävät valvontatoimenpiteensä vuonna 2024, mikä merkitsi armonaikakauden päättymistä LGPD:n voimaantulon jälkeen vuonna 2020.
Tekninen vaatimustenmukaisuushaaste on erityinen: Brasilian portugali on LGPD:n kattamien asiakirjojen kieli, mutta brasilialaiset kansalliset tunnisteet ovat täysin erilaisia kuin eurooppalaiset portugalinkieliset tunnisteet — ja mistään muusta kansallisesta tunnistamisjärjestelmästä maailmassa.
Miksi Brasilian PII on teknisesti erilaista
Brasilian liittovaltion ja osavaltion tunnistusjärjestelmät kehittyivät erikseen eurooppalaisista digitaalisista identiteettikehyksistä. Tulos on monimutkainen joukko tunnisteita, joita yleiset NLP-työkalut — useimmat koulutettu englannin tai eurooppalaisten kielidatan avulla — eivät pysty havaitsemaan:
CPF (Cadastro de Pessoas Físicas): 11-numeroisen yksittäisen verovelvollisen rekisteröinti on Brasilian yleinen kansalaisidentifikaattori. Muoto: XXX.XXX.XXX-XX, jossa on kaksi tarkistussummaa. CPF:n tarkistussumman algoritmi käyttää kahta erillistä modulaarista laskentaa — jos molemmat tarkistussummat täsmäävät, CPF on voimassa.
Tekninen ongelma: CPF havaitaan vain 45 % tarkkuudella englanninkielisillä NLP-työkaluilla (ANPD:n tekninen arviointi 2024). Epäonnistumiset: työkalut, jotka mallitunnistavat 11-numeroisia lukuja ilman kahta vaihetta tarkistussumman vahvistamista, eivät voi erottaa voimassa olevia CPF-numeroita satunnaisista sekvensseistä; ja CPF esiintyy brasilialaisissa asiakirjoissa ilman standardimuotoa XXX.XXX.XXX-XX joissakin konteksteissa (OCR-tuloste, tavalliset tekstimuodot).
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-numeroisen yrityksen rekisteröintinumero. Muoto: XX.XXX.XXX/XXXX-XX, jossa on kaksi tarkistussummaa, jotka käyttävät samanlaisia (mutta eivät identtisiä) algoritmeja kuin CPF.
RG (Registro Geral): Brasilian osavaltion myöntämä kansalaisidentiteettiasiakirja. Toisin kuin CPF (liittovaltion, yhtenäinen), RG:n muoto vaihtelee myöntöosavaltion mukaan:
- São Paulo: 2 kirjainta + 5-9 numeroa (esim. MG-12.345.678)
- Rio de Janeiro: 7-8 numeroa viivalla
- Minas Gerais: 7-9 numeroa
- Muut osavaltiot: erilaiset muodot
Työkalu, joka tunnistaa vain yhden osavaltion RG-muodon, jättää huomiotta suurimman osan RG-numeroista brasilialaisissa asiakirjoissa.
CNH (Carteira Nacional de Habilitação): 11-numeroisen ajokorttinumeron tarkistussumma. CNH myönnetään liittovaltion tasolla, mutta muoto sisältää rekisteröintipiirin koodauksen.
Título de Eleitor (äänestäjätunnistus): 12-numeroista numeroa, jossa on 3 osaa — tunnistuskoodi (8 numeroa), osavaltiokoodi (2 numeroa), tarkistussummat (2 numeroa).
SUS-numero (Cartão SUS): 15-numeroista yhtenäistä terveydenhuoltojärjestelmän numeroa, joka on myönnetty jokaiselle brasilialaiselle julkiseen terveydenhuoltoon pääsyä varten. Esiintyy julkisissa sairaaloissa ja perusterveydenhuollon asiakirjoissa.
PIS/PASEP: 11-numeroista sosiaalisen integraation ohjelman numeroa, jota käytetään kaikissa työsuhteissa.
LGPD:n anonymisointistandardi
LGPD:n artikla 12 määrittelee anonyymit tiedot tiedoiksi, "jotka liittyvät rekisteröityyn henkilöön, jota ei voida tunnistaa, ottaen huomioon käsittelyn aikana käytettävissä olevat kohtuulliset tekniset keinot." Tämä on teknologiarajainen standardi — mikä on tänään anonyymi, ei välttämättä ole anonyymi, kun tulevat uudelleen tunnistamistekniikat kehittyvät.
ANPD:n ohjeet selventävät, että anonymisointi vaatii enemmän kuin vain eksplisiittisten tunnisteiden (CPF, nimi) poistamista. Kvasi-tunnisteyhdistelmät (ikähaarukka, kunnallinen, sukupuoli, ammatti) voivat mahdollistaa uudelleen tunnistamisen ja ne on käsiteltävä yleistämällä tai lisäämällä melua.
AI-koulutusdataa varten ANPD vaatii, että LLM:ien tai ML-mallien koulutuksessa käytettävät tiedot joko:
- Ovat aidosti anonymisoituja (täyttävät artiklan 12 tekniset vaatimukset), TAI
- Ovat saaneet eksplisiittisen suostumuksen jokaiselta rekisteröidyltä henkilöltä tiettyä koulutuskäyttöä varten, TAI
- Täyttävät laillisen tarkoituksen asiakirjatodistuksella
Brasilian Portugali Kielen Vaatimukset
Brasilian portugali eroaa eurooppalaisesta portugalista sanastoltaan, oikeinkirjoitukseltaan ja asiakirjakäytännöiltään. Eurooppalaisella portugalilla (Portugali) koulutetut NLP-mallit toimivat noin 71 % tarkkuudella verrattuna erityisesti brasilialaisen portugalin tekstille koulutettuihin malleihin (ANPD:n tekninen arviointi).
Erityiset erot, jotka ovat merkityksellisiä PII-tunnistuksessa:
- Nimikonventiot: Brasilialaiset nimet seuraavat erilaisia kaavoja kuin portugalilaiset nimet. Yleiset brasilialaiset sukunimet (Silva, Santos, Oliveira, Souza) ovat samat, mutta nimeämiskäytännöt (kaksinkertaiset sukunimet, järjestyspreferenssit) eroavat.
- Osoitemuodot: Brasilian osoitteet käyttävät "Rua," "Avenida," "Alameda," "Travessa" samalla tavalla kuin Portugalissa, mutta CEP-postinumerot (8-numeroista muotoa: XXXXX-XXX) ovat Brasilian erityisiä ja vaativat brasilialaisen postinumerotunnistuksen.
- Asiakirjaterminologia: Brasilian asiakirjat käyttävät eri terminologiaa eurooppalaisesta portugalista — "Carteira de Identidade" vs. "Bilhete de Identidade" kansalliselle henkilökortille, eri hallintoviranomaisten nimiä eri puolilla.
LGPD:n vaatimustenmukaisuudelle: CPF ja CNPJ, joissa on kaksivaiheinen tarkistussumman vahvistaminen, moniosavaltion RG-muodon tunnistus, SUS-numero ja Título de Eleitorin tunnistus, sekä brasilialaisen portugalin NLP-mallin tuki ovat tekninen perusta ANPD:n vaatimustenmukaisuudelle.
Lähteet: