Tilbage til BlogGDPR & Overholdelse

LGPD og brasiliansk portugisisk PII: Hvad ANPD kræver for CPF, CNPJ og brasiliansk databeskyttelse

LGPD dækker 215 millioner brasilianere, og ANPD begyndte store håndhævelser i 2024. CPF opdages kun med 45% nøjagtighed af engelsktrænede værktøjer. Brasilianske identifikatorer fra CPF til Título de Eleitor kræver specialiseret detektion.

March 7, 20268 min læsning
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

Brasils Lei Geral de Proteção de Dados (LGPD) er verdens tredjestørste databeskyttelsesramme målt på befolkning — 215 millioner brasilianere, større end Tyskland, Frankrig og Storbritannien tilsammen. Autoridade Nacional de Proteção de Dados (ANPD) udstedte sine første store håndhævelsesaktioner i 2024, hvilket signalerer slutningen på den graceperiode, der fulgte efter LGPD's vedtagelse i 2020.

Den tekniske overholdelsesudfordring er særpræget: Brasiliansk portugisisk er sproget for LGPD-dækkede dokumenter, men brasilianske nationale identifikatorer er helt forskellige fra europæiske portugisiske identifikatorer — og fra ethvert andet nationalt identifikationssystem i verden.

Hvorfor brasiliansk PII er teknisk distinkt

Brasilianske føderale og statslige identifikationssystemer har udviklet sig separat fra europæiske digitale identitetsrammer. Resultatet er et komplekst sæt af identifikatorer, som generiske NLP-værktøjer — de fleste trænet på engelsk eller europæiske sprogdata — ikke kan opdage:

CPF (Cadastro de Pessoas Físicas): Det 11-cifrede individuelle skatteyderregistreringsnummer er Brasils universelle borgeridentifikator. Format: XXX.XXX.XXX-XX med to kontrolcifre. CPF-kontrolcifre algoritmen bruger to separate modulære aritmetiske beregninger — hvis begge kontrolcifre matcher, er CPF gyldig.

Det tekniske problem: CPF opdages kun med 45% nøjagtighed af engelsktrænede NLP-værktøjer (ANPD teknisk vurdering 2024). Fejlene: værktøjer, der mønster-genkender 11-cifrede numre uden den to-trins kontrolcifervalidation, kan ikke skelne gyldige CPF-numre fra tilfældige sekvenser; og CPF vises i brasilianske dokumenter uden den standardiserede XXX.XXX.XXX-XX formatering i nogle sammenhænge (OCR-output, almindelige tekstformer).

CNPJ (Cadastro Nacional da Pessoa Jurídica): Det 14-cifrede virksomhedsregistreringsnummer. Format: XX.XXX.XXX/XXXX-XX med to kontrolcifre, der bruger lignende (men ikke identiske) algoritmer som CPF.

RG (Registro Geral): Brasils statsligt udstedte civile identitetsdokument. I modsætning til CPF (føderal, ensartet) varierer RG-formatet afhængigt af udstedelsesstat:

  • São Paulo: 2 bogstaver + 5-9 cifre (f.eks. MG-12.345.678)
  • Rio de Janeiro: 7-8 cifre med bindestreg
  • Minas Gerais: 7-9 cifre
  • Andre stater: forskellige formater

Et værktøj, der kun genkender ét stats RG-format, går glip af størstedelen af RG-numrene i brasilianske dokumenter.

CNH (Carteira Nacional de Habilitação): 11-cifret kørekortnummer med kontrolciffer. CNH udstedes føderalt, men formatet inkluderer registreringsdistriktkoder.

Título de Eleitor (vælgerregistrering): 12-cifret nummer med 3 komponenter — identifikationskode (8 cifre), statskode (2 cifre), kontrolcifre (2 cifre).

SUS-nummer (Cartão SUS): 15-cifret nummer til det samlede sundhedssystem tildelt hver brasilianer for adgang til offentlig sundhedspleje. Visas gennem offentlige hospitaler og primærplejeregistre.

PIS/PASEP: 11-cifret nummer til socialt integrationsprogram, der bruges i alle ansættelsesoptegnelser.

LGPD's anonymiseringsstandard

LGPD Artikel 12 definerer anonyme data som data "vedrørende den registrerede, som ikke kan identificeres, under hensyntagen til brugen af rimelige tekniske midler til rådighed på tidspunktet for behandlingen." Dette er en teknologi-relativ standard — hvad der er anonymt i dag, kan være ikke-anonymt, når fremtidige re-identifikationsteknikker udvikles.

ANPD's vejledning præciserer, at anonymisering kræver mere end blot at fjerne eksplicitte identifikatorer (CPF, navn). Kombinationer af kvasi-identifikatorer (alder, kommune, køn, profession) kan muliggøre re-identifikation og skal adresseres gennem generalisering eller støjtilføjelse.

For AI-træningsdata kræver ANPD, at data, der bruges til at træne LLM'er eller ML-modeller, enten:

  • Er ægte anonymiseret (opfylder Artikel 12's tekniske standard), ELLER
  • Har eksplicit samtykke fra hver registreret til den specifikke træningsbrug, ELLER
  • Kvalificerer under et legitimt formål med dokumenteret begrundelse

Krav til brasiliansk portugisisk sprog

Brasiliansk portugisisk adskiller sig fra europæisk portugisisk i ordforråd, stavemåde og dokumentkonventioner. NLP-modeller trænet på europæisk portugisisk (Portugal) præsterer med cirka 71% af nøjagtigheden af modeller, der er trænet specifikt på brasiliansk portugisisk tekst (ANPD teknisk vurdering).

Specifikke forskelle, der er relevante for PII-detektion:

  • Navnekonventioner: Brasilianske navne følger forskellige mønstre end portugisiske navne. Almindelige brasilianske efternavne (Silva, Santos, Oliveira, Souza) er de samme, men navngivningskonventioner (dobbelt efternavn, rækkefølgepræferencer) adskiller sig.
  • Adresseformater: Brasilianske adresser bruger "Rua," "Avenida," "Alameda," "Travessa" ligesom i Portugal, men CEP-postnumre (8-cifret format: XXXXX-XXX) er Brasilien-specifikke og kræver brasiliansk postnummergenkendelse.
  • Dokumentterminologi: Brasilianske dokumenttyper bruger en anden terminologi end europæisk portugisisk — "Carteira de Identidade" vs. "Bilhete de Identidade" for national ID, forskellige navne på regeringsagenturer gennem hele.

For LGPD-overholdelse: CPF og CNPJ med to-trins kontrolcifervalidation, multi-state RG-formatgenkendelse, SUS-nummer og Título de Eleitor-detektion, samt brasiliansk portugisisk NLP-modelsupport er den tekniske baseline for ANPD-overholdelse.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.