Takaisin BlogiinGDPR & Vaatimustenmukaisuus

LGPD ja Brasilialainen Portugali PII...

LGPD kattaa 215 miljoonaa brasilialaista ja ANPD aloitti merkittävän valvonnan vuonna 2024.

April 21, 20268 min lukuaika
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

Brasilian yleinen tietosuojalaki (LGPD) on maailman kolmanneksi suurin tietosuojakehys väestön mukaan — 215 miljoonaa brasilialaista, enemmän kuin Saksa, Ranska ja Iso-Britannia yhteensä. Kansallinen tietosuojaviranomainen (ANPD) julkaisi ensimmäiset merkittävät valvontatoimenpiteensä vuonna 2024, mikä merkitsi armonaikakauden päättymistä LGPD:n voimaantulon jälkeen vuonna 2020.

Tekninen vaatimustenmukaisuushaaste on erityinen: Brasilian portugali on LGPD:n kattamien asiakirjojen kieli, mutta brasilialaiset kansalliset tunnisteet ovat täysin erilaisia kuin eurooppalaiset portugalinkieliset tunnisteet — ja mistään muusta kansallisesta tunnistamisjärjestelmästä maailmassa.

Miksi Brasilian PII on teknisesti erilaista

Brasilian liittovaltion ja osavaltion tunnistusjärjestelmät kehittyivät erikseen eurooppalaisista digitaalisista identiteettikehyksistä. Tulos on monimutkainen joukko tunnisteita, joita yleiset NLP-työkalut — useimmat koulutettu englannin tai eurooppalaisten kielidatan avulla — eivät pysty havaitsemaan:

CPF (Cadastro de Pessoas Físicas): 11-numeroisen yksittäisen verovelvollisen rekisteröinti on Brasilian yleinen kansalaisidentifikaattori. Muoto: XXX.XXX.XXX-XX, jossa on kaksi tarkistussummaa. CPF:n tarkistussumman algoritmi käyttää kahta erillistä modulaarista laskentaa — jos molemmat tarkistussummat täsmäävät, CPF on voimassa.

Tekninen ongelma: CPF havaitaan vain 45 % tarkkuudella englanninkielisillä NLP-työkaluilla (ANPD:n tekninen arviointi 2024). Epäonnistumiset: työkalut, jotka mallitunnistavat 11-numeroisia lukuja ilman kahta vaihetta tarkistussumman vahvistamista, eivät voi erottaa voimassa olevia CPF-numeroita satunnaisista sekvensseistä; ja CPF esiintyy brasilialaisissa asiakirjoissa ilman standardimuotoa XXX.XXX.XXX-XX joissakin konteksteissa (OCR-tuloste, tavalliset tekstimuodot).

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-numeroisen yrityksen rekisteröintinumero. Muoto: XX.XXX.XXX/XXXX-XX, jossa on kaksi tarkistussummaa, jotka käyttävät samanlaisia (mutta eivät identtisiä) algoritmeja kuin CPF.

RG (Registro Geral): Brasilian osavaltion myöntämä kansalaisidentiteettiasiakirja. Toisin kuin CPF (liittovaltion, yhtenäinen), RG:n muoto vaihtelee myöntöosavaltion mukaan:

  • São Paulo: 2 kirjainta + 5-9 numeroa (esim. MG-12.345.678)
  • Rio de Janeiro: 7-8 numeroa viivalla
  • Minas Gerais: 7-9 numeroa
  • Muut osavaltiot: erilaiset muodot

Työkalu, joka tunnistaa vain yhden osavaltion RG-muodon, jättää huomiotta suurimman osan RG-numeroista brasilialaisissa asiakirjoissa.

CNH (Carteira Nacional de Habilitação): 11-numeroisen ajokorttinumeron tarkistussumma. CNH myönnetään liittovaltion tasolla, mutta muoto sisältää rekisteröintipiirin koodauksen.

Título de Eleitor (äänestäjätunnistus): 12-numeroista numeroa, jossa on 3 osaa — tunnistuskoodi (8 numeroa), osavaltiokoodi (2 numeroa), tarkistussummat (2 numeroa).

SUS-numero (Cartão SUS): 15-numeroista yhtenäistä terveydenhuoltojärjestelmän numeroa, joka on myönnetty jokaiselle brasilialaiselle julkiseen terveydenhuoltoon pääsyä varten. Esiintyy julkisissa sairaaloissa ja perusterveydenhuollon asiakirjoissa.

PIS/PASEP: 11-numeroista sosiaalisen integraation ohjelman numeroa, jota käytetään kaikissa työsuhteissa.

LGPD:n anonymisointistandardi

LGPD:n artikla 12 määrittelee anonyymit tiedot tiedoiksi, "jotka liittyvät rekisteröityyn henkilöön, jota ei voida tunnistaa, ottaen huomioon käsittelyn aikana käytettävissä olevat kohtuulliset tekniset keinot." Tämä on teknologiarajainen standardi — mikä on tänään anonyymi, ei välttämättä ole anonyymi, kun tulevat uudelleen tunnistamistekniikat kehittyvät.

ANPD:n ohjeet selventävät, että anonymisointi vaatii enemmän kuin vain eksplisiittisten tunnisteiden (CPF, nimi) poistamista. Kvasi-tunnisteyhdistelmät (ikähaarukka, kunnallinen, sukupuoli, ammatti) voivat mahdollistaa uudelleen tunnistamisen ja ne on käsiteltävä yleistämällä tai lisäämällä melua.

AI-koulutusdataa varten ANPD vaatii, että LLM:ien tai ML-mallien koulutuksessa käytettävät tiedot joko:

  • Ovat aidosti anonymisoituja (täyttävät artiklan 12 tekniset vaatimukset), TAI
  • Ovat saaneet eksplisiittisen suostumuksen jokaiselta rekisteröidyltä henkilöltä tiettyä koulutuskäyttöä varten, TAI
  • Täyttävät laillisen tarkoituksen asiakirjatodistuksella

Brasilian Portugali Kielen Vaatimukset

Brasilian portugali eroaa eurooppalaisesta portugalista sanastoltaan, oikeinkirjoitukseltaan ja asiakirjakäytännöiltään. Eurooppalaisella portugalilla (Portugali) koulutetut NLP-mallit toimivat noin 71 % tarkkuudella verrattuna erityisesti brasilialaisen portugalin tekstille koulutettuihin malleihin (ANPD:n tekninen arviointi).

Erityiset erot, jotka ovat merkityksellisiä PII-tunnistuksessa:

  • Nimikonventiot: Brasilialaiset nimet seuraavat erilaisia kaavoja kuin portugalilaiset nimet. Yleiset brasilialaiset sukunimet (Silva, Santos, Oliveira, Souza) ovat samat, mutta nimeämiskäytännöt (kaksinkertaiset sukunimet, järjestyspreferenssit) eroavat.
  • Osoitemuodot: Brasilian osoitteet käyttävät "Rua," "Avenida," "Alameda," "Travessa" samalla tavalla kuin Portugalissa, mutta CEP-postinumerot (8-numeroista muotoa: XXXXX-XXX) ovat Brasilian erityisiä ja vaativat brasilialaisen postinumerotunnistuksen.
  • Asiakirjaterminologia: Brasilian asiakirjat käyttävät eri terminologiaa eurooppalaisesta portugalista — "Carteira de Identidade" vs. "Bilhete de Identidade" kansalliselle henkilökortille, eri hallintoviranomaisten nimiä eri puolilla.

LGPD:n vaatimustenmukaisuudelle: CPF ja CNPJ, joissa on kaksivaiheinen tarkistussumman vahvistaminen, moniosavaltion RG-muodon tunnistus, SUS-numero ja Título de Eleitorin tunnistus, sekä brasilialaisen portugalin NLP-mallin tuki ovat tekninen perusta ANPD:n vaatimustenmukaisuudelle.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.