anonym.legal
Torna al BlogGDPR e Conformità

LGPD e PII in portoghese brasiliano: Cosa richiede l'ANPD per CPF, CNPJ e protezione dei dati brasiliani

La LGPD copre 215 milioni di brasiliani e l'ANPD ha avviato un'importante enforcement nel 2024. CPF rilevato con solo il 45% di precisione da strumenti addestrati in inglese. Gli identificatori brasiliani, dal CPF al Título de Eleitor, richiedono una rilevazione specializzata.

March 7, 20268 min di lettura
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

La Lei Geral de Proteção de Dados (LGPD) del Brasile è il terzo più grande framework di protezione dei dati al mondo per popolazione coperta — 215 milioni di brasiliani, più della somma di Germania, Francia e Regno Unito. L'Autoridade Nacional de Proteção de Dados (ANPD) ha emesso le sue prime azioni di enforcement significative nel 2024, segnando la fine del periodo di grazia che ha seguito l'entrata in vigore della LGPD nel 2020.

La sfida della conformità tecnica è distintiva: il portoghese brasiliano è la lingua dei documenti coperti dalla LGPD, ma gli identificatori nazionali brasiliani sono completamente diversi dagli identificatori in portoghese europeo — e da qualsiasi altro sistema di identificazione nazionale nel mondo.

Perché la PII brasiliana è tecnicamente distinta

I sistemi di identificazione federali e statali brasiliani si sono evoluti separatamente dai framework di identità digitale europei. Il risultato è un insieme complesso di identificatori che gli strumenti NLP generici — la maggior parte addestrati su dati in inglese o in lingue europee — non riescono a rilevare:

CPF (Cadastro de Pessoas Físicas): Il numero di registrazione del contribuente individuale di 11 cifre è l'identificatore universale dei cittadini brasiliani. Formato: XXX.XXX.XXX-XX con due cifre di controllo. L'algoritmo della cifra di controllo del CPF utilizza due calcoli aritmetici modulari separati — se entrambe le cifre di controllo corrispondono, il CPF è valido.

Il problema tecnico: CPF rilevato con solo il 45% di precisione da strumenti NLP addestrati in inglese (valutazione tecnica ANPD 2024). I fallimenti: strumenti che abbinano modelli di numeri a 11 cifre senza la validazione a due fasi della cifra di controllo non possono distinguere i numeri CPF validi da sequenze casuali; e il CPF appare in documenti brasiliani senza il formato standard XXX.XXX.XXX-XX in alcuni contesti (output OCR, moduli di testo semplice).

CNPJ (Cadastro Nacional da Pessoa Jurídica): Il numero di registrazione dell'azienda di 14 cifre. Formato: XX.XXX.XXX/XXXX-XX con due cifre di controllo che utilizzano algoritmi simili (ma non identici) a quelli del CPF.

RG (Registro Geral): Il documento di identità civile emesso dallo stato del Brasile. A differenza del CPF (federale, uniforme), il formato dell'RG varia in base allo stato di emissione:

  • São Paulo: 2 lettere + 5-9 cifre (es. MG-12.345.678)
  • Rio de Janeiro: 7-8 cifre con trattino
  • Minas Gerais: 7-9 cifre
  • Altri stati: vari formati

Uno strumento che riconosce solo il formato RG di uno stato perde la maggior parte dei numeri RG nei documenti brasiliani.

CNH (Carteira Nacional de Habilitação): Numero di patente di guida di 11 cifre con cifra di controllo. La CNH è emessa a livello federale, ma il formato include la codifica del distretto di registrazione.

Título de Eleitor (registrazione degli elettori): Numero di 12 cifre con 3 componenti — codice identificativo (8 cifre), codice statale (2 cifre), cifre di controllo (2 cifre).

Numero SUS (Cartão SUS): Numero di 15 cifre del sistema sanitario unificato assegnato a ogni brasiliano per l'accesso all'assistenza sanitaria pubblica. Appare in tutti i registri degli ospedali pubblici e della medicina di base.

PIS/PASEP: Numero di 11 cifre del programma di integrazione sociale utilizzato in tutti i registri di lavoro.

Standard di Anonimizzazione della LGPD

L'Articolo 12 della LGPD definisce i dati anonimi come dati "relativi all'interessato che non possono essere identificati, considerando l'uso di mezzi tecnici ragionevoli disponibili al momento del trattamento." Questo è uno standard relativo alla tecnologia — ciò che è anonimo oggi potrebbe non essere anonimo quando si sviluppano tecniche di re-identificazione future.

Le linee guida dell'ANPD chiariscono che l'anonimizzazione richiede più della semplice rimozione degli identificatori espliciti (CPF, nome). Le combinazioni di quasi-identificatori (fascia di età, comune, genere, professione) possono consentire la re-identificazione e devono essere affrontate attraverso la generalizzazione o l'aggiunta di rumore.

Per i dati di addestramento dell'IA, l'ANPD richiede che i dati utilizzati per addestrare LLM o modelli ML siano:

  • Genuinamente anonimizzati (rispondendo allo standard tecnico dell'Articolo 12), OPPURE
  • Abbiano il consenso esplicito di ciascun interessato per l'uso specifico dell'addestramento, OPPURE
  • Qualifichino per uno scopo legittimo con giustificazione documentata

Requisiti linguistici in portoghese brasiliano

Il portoghese brasiliano differisce dal portoghese europeo in vocabolario, ortografia e convenzioni documentali. I modelli NLP addestrati sul portoghese europeo (Portogallo) hanno una precisione di circa il 71% rispetto ai modelli addestrati specificamente su testi in portoghese brasiliano (valutazione tecnica ANPD).

Differenze specifiche rilevanti per la rilevazione della PII:

  • Convenzioni sui nomi: I nomi brasiliani seguono schemi diversi rispetto ai nomi portoghesi. I cognomi brasiliani comuni (Silva, Santos, Oliveira, Souza) sono gli stessi, ma le convenzioni di denominazione (doppi cognomi, preferenze di ordine) differiscono.
  • Formati degli indirizzi: Gli indirizzi brasiliani utilizzano "Rua," "Avenida," "Alameda," "Travessa" in modo simile al Portogallo, ma i codici postali CEP (formato a 8 cifre: XXXXX-XXX) sono specifici del Brasile e richiedono il riconoscimento dei codici postali brasiliani.
  • Terminologia documentale: I tipi di documenti brasiliani utilizzano una terminologia diversa rispetto al portoghese europeo — "Carteira de Identidade" contro "Bilhete de Identidade" per l'ID nazionale, nomi di agenzie governative diversi in tutto.

Per la conformità alla LGPD: CPF e CNPJ con validazione della cifra di controllo a due fasi, riconoscimento del formato RG multi-stato, rilevamento del numero SUS e del Título de Eleitor, e supporto del modello NLP in portoghese brasiliano sono la base tecnica per la conformità all'ANPD.

Fonti:

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.