LGPD Brasile: CPF, CNPJ e Protezione dei Dati
La Lei Geral de Proteção de Dados (LGPD) brasiliana copre 215 milioni di persone ed è la terza legge sulla protezione dei dati al mondo per popolazione. Copre più persone di Germania, Francia e Regno Unito messe insieme. L'Autoridade Nacional de Proteção de Dados (ANPD) ha emesso le prime sanzioni significative nel 2024. Il periodo di grazia successivo all'entrata in vigore della LGPD nel 2020 è terminato.
Esiste anche una sfida tecnica concreta. I documenti LGPD sono in portoghese brasiliano. I codici identificativi nazionali brasiliani differiscono da quelli portoghesi e da quelli di qualsiasi altro paese.
Perché i Dati PII Brasiliani Sono Diversi
I sistemi di identificazione federali e statali brasiliani si sono sviluppati separatamente rispetto ai sistemi europei di identità digitale. Questo ha creato un insieme unico di identificatori. La maggior parte degli strumenti NLP è addestrata su dati in inglese o europei e non riesce a rilevare i codici locali.
CPF (Cadastro de Pessoas Físicas): Il codice fiscale a 11 cifre. Formato: XXX.XXX.XXX-XX. Dispone di due cifre di controllo calcolate con due passaggi matematici distinti, entrambi necessari per la validazione.
La lacuna nel rilevamento è ampia. Gli strumenti NLP addestrati sull'inglese rilevano il CPF con solo il 45% di accuratezza (ANPD, 2024). Due le ragioni principali. Prima: gli strumenti che abbinano numeri a 11 cifre senza la logica a doppia cifra di controllo confondono CPF validi con sequenze casuali. Seconda: il CPF talvolta manca del formato XXX.XXX.XXX-XX, come avviene negli output OCR e nei moduli in testo normale.
CNPJ (Cadastro Nacional da Pessoa Jurídica): Il codice aziendale a 14 cifre. Formato: XX.XXX.XXX/XXXX-XX. Anche questo ha due cifre di controllo, calcolate con una formula simile al CPF ma non identica.
RG (Registro Geral): Il documento d'identità civile statale. Il formato varia per stato: San Paolo usa 2 lettere e da 5 a 9 cifre; Rio de Janeiro usa da 7 a 8 cifre con un trattino; Minas Gerais usa da 7 a 9 cifre. Gli altri stati hanno formati propri. Uno strumento che conosce solo il formato RG di uno stato mancherà la maggior parte dei numeri RG.
CNH (Carteira Nacional de Habilitação): Il numero di patente di guida a 11 cifre con una cifra di controllo e un codice distrettuale.
Título de Eleitor: Il codice elettore a 12 cifre composto da tre parti: un codice ID a 8 cifre, un codice stato a 2 cifre e 2 cifre di controllo.
Numero SUS (Cartão SUS): Il codice sanitario pubblico a 15 cifre. Ogni persona nel paese ne ha uno e compare in tutti i documenti ospedalieri e clinici.
PIS/PASEP: Il numero del programma previdenziale a 11 cifre, presente in ogni documento di lavoro.
Standard di Anonimizzazione della LGPD
L'Articolo 12 della LGPD definisce i dati anonimi con uno standard relativo alla tecnologia: dati che "non possono essere identificati, tenendo conto dei ragionevoli mezzi tecnici disponibili al momento del trattamento". I dati oggi anonimi potrebbero non esserlo domani, man mano che i metodi di re-identificazione migliorano.
L'ANPD aggiunge ulteriori indicazioni. Rimuovere gli identificatori diretti come CPF e nome non è sufficiente. Combinazioni di quasi-identificatori possono comunque consentire la re-identificazione. Fascia d'età, città, genere e professione insieme possono identificare una persona e devono essere trattati tramite raggruppamento o aggiunta di rumore.
Per i dati di addestramento AI, l'ANPD richiede che ricorra una di tre condizioni: i dati soddisfano lo standard dell'Articolo 12; ogni interessato ha fornito il consenso esplicito per lo specifico uso nell'addestramento; oppure esiste una finalità valida e documentata.
Requisiti Linguistici per il Portoghese
Il portoghese brasiliano differisce da quello europeo per vocabolario, ortografia e forme documentali. I modelli NLP addestrati su testi portoghesi raggiungono circa il 71% dell'accuratezza dei modelli addestrati su testi locali, secondo la valutazione tecnica dell'ANPD.
Differenze rilevanti per il rilevamento PII:
- Nomi: L'uso del doppio cognome e l'ordine dei nomi differiscono dal Portogallo.
- Indirizzi: I codici CEP usano il formato XXXXX-XXX, unico per il paese e con una propria logica di rilevamento.
- Termini documentali: "Carteira de Identidade" in Brasile vs. "Bilhete de Identidade" in Portogallo. Anche i nomi delle agenzie differiscono.
Cosa Richiede la Conformità all'ANPD
Quattro requisiti tecnici coprono la conformità all'ANPD. Il rilevamento di CPF e CNPJ deve includere la validazione a doppia cifra di controllo. È richiesto il rilevamento del RG per tutti gli stati, nonché del numero SUS e del Título de Eleitor. I modelli NLP devono essere addestrati sul portoghese brasiliano.
Vedere la nostra guida al rilevamento globale degli identificatori PII e alle azioni di enforcement LGPD del 2024.