Tillbaka till BloggenGDPR & Efterlevnad

LGPD och brasiliansk portugisisk PII...

LGPD omfattar 215 miljoner brasilianare och ANPD inledde stora verkställighetsåtgärder 2024.

April 21, 20268 min läsning
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

Brasiliens Lei Geral de Proteção de Dados (LGPD) är världens tredje största dataskyddsramverk efter befolkning — 215 miljoner brasilianare, större än Tyskland, Frankrike och Storbritannien tillsammans. Autoridade Nacional de Proteção de Dados (ANPD) utfärdade sina första stora verkställighetsåtgärder 2024, vilket signalerade slutet på den nådperiod som följde efter LGPD:s införande 2020.

Den tekniska efterlevnadsutmaningen är distinkt: Brasiliansk portugisiska är språket för LGPD-täckta dokument, men brasilianska nationella identifierare är helt olika från europeiska portugisiska identifierare — och från något annat nationellt identifieringssystem i världen.

Varför brasiliansk PII är tekniskt distinkt

Brasilianska federala och statliga identifieringssystem har utvecklats separat från europeiska digitala identitetsramverk. Resultatet är en komplex uppsättning identifierare som generiska NLP-verktyg — de flesta tränade på engelska eller europeiska språkdatan — misslyckas med att upptäcka:

CPF (Cadastro de Pessoas Físicas): Den 11-siffriga individuella skattebetalare registreringen är Brasiliens universella medborgaridentifierare. Format: XXX.XXX.XXX-XX med två kontrollsiffror. CPF:s kontrollsifferalgoritm använder två separata modulära aritmetiska beräkningar — om båda kontrollsiffrorna matchar, är CPF giltig.

Det tekniska problemet: CPF upptäcktes med endast 45 % noggrannhet av engelsktränade NLP-verktyg (ANPD teknisk bedömning 2024). Misslyckandena: verktyg som matchar mönster av 11-siffriga nummer utan den tvåstegs kontrollsiffervalideringen kan inte särskilja giltiga CPF-nummer från slumpmässiga sekvenser; och CPF förekommer i brasilianska dokument utan den standardiserade XXX.XXX.XXX-XX formateringen i vissa sammanhang (OCR-utdata, vanliga textformer).

CNPJ (Cadastro Nacional da Pessoa Jurídica): Det 14-siffriga företagsregistreringsnumret. Format: XX.XXX.XXX/XXXX-XX med två kontrollsiffror som använder liknande (men inte identiska) algoritmer som CPF.

RG (Registro Geral): Brasiliens statligt utfärdade civila identitetsdokument. Till skillnad från CPF (federal, enhetlig), varierar RG-formatet beroende på utfärdande stat:

  • São Paulo: 2 bokstäver + 5-9 siffror (t.ex., MG-12.345.678)
  • Rio de Janeiro: 7-8 siffror med bindestreck
  • Minas Gerais: 7-9 siffror
  • Andra stater: olika format

Ett verktyg som endast känner igen en stats RG-format missar majoriteten av RG-nummer i brasilianska dokument.

CNH (Carteira Nacional de Habilitação): 11-siffrigt körkortnummer med kontrollsiffra. CNH utfärdas federalt men formatet inkluderar registreringsdistriktskodning.

Título de Eleitor (väljare registrering): 12-siffrigt nummer med 3 komponenter — identifieringskod (8 siffror), statskod (2 siffror), kontrollsiffror (2 siffror).

SUS-nummer (Cartão SUS): 15-siffrigt enhetligt hälsosystemnummer som tilldelas varje brasilianare för tillgång till offentlig sjukvård. Förekommer i offentliga sjukhus- och primärvårdsjournaler.

PIS/PASEP: 11-siffrigt nummer för socialt integrationsprogram som används i alla anställningsregister.

LGPD:s anonymiseringsstandard

LGPD Artikel 12 definierar anonym data som data "som rör den registrerade som inte kan identifieras, med hänsyn till användningen av rimliga tekniska medel som finns tillgängliga vid tidpunkten för behandlingen." Detta är en teknikrelativ standard — vad som är anonymt idag kanske inte är anonymt när framtida återidentifieringstekniker utvecklas.

ANPD:s vägledning klargör att anonymisering kräver mer än att ta bort explicita identifierare (CPF, namn). Kombinationer av kvasi-identifierare (åldersintervall, kommun, kön, yrke) kan möjliggöra återidentifiering och måste hanteras genom generalisering eller brusaddition.

För AI-träningsdata kräver ANPD att data som används för att träna LLM:er eller ML-modeller antingen:

  • Är genuint anonymiserad (uppfyller Artikel 12:s tekniska standard), ELLER
  • Har uttryckligt samtycke från varje registrerad för den specifika träningsanvändningen, ELLER
  • Kvalificerar under ett legitimt syfte med dokumenterad motivering

Krav på brasiliansk portugisiska språket

Brasiliansk portugisiska skiljer sig från europeisk portugisiska i vokabulär, stavning och dokumentkonventioner. NLP-modeller tränade på europeisk portugisiska (Portugal) presterar med cirka 71 % av noggrannheten hos modeller som är specifikt tränade på brasiliansk portugisisk text (ANPD teknisk bedömning).

Specifika skillnader relevanta för PII-detektering:

  • Namnkonventioner: Brasilianska namn följer andra mönster än portugisiska namn. Vanliga brasilianska efternamn (Silva, Santos, Oliveira, Souza) är desamma, men namngivningskonventioner (dubbel efternamn, ordningspreferenser) skiljer sig.
  • Adressformat: Brasilianska adresser använder "Rua," "Avenida," "Alameda," "Travessa" på liknande sätt som Portugal, men CEP-postnummer (8-siffrigt format: XXXXX-XXX) är Brasilien-specifika och kräver erkännande av brasilianska postnummer.
  • Dokumentterminologi: Brasilianska dokumenttyper använder annan terminologi än europeisk portugisiska — "Carteira de Identidade" vs. "Bilhete de Identidade" för nationellt ID, olika namn på myndigheter genomgående.

För LGPD-efterlevnad: CPF och CNPJ med tvåstegs kontrollsiffervalidering, multi-stat RG-formatigenkänning, SUS-nummer och Título de Eleitor-detektering, samt stöd för brasiliansk portugisisk NLP-modell är den tekniska baslinjen för ANPD-efterlevnad.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.