LGPD Brazília: CPF, CNPJ és adatvédelem

Brazília Lei Geral de Proteção de Dados (LGPD) törvénye 215 millió embert véd. Ez a világ harmadik legnagyobb adatvédelmi törvénye népesség szerint — több embert fed le, mint Németország, Franciaország és az Egyesült Királyság együttesen. Az Autoridade Nacional de Proteção de Dados (ANPD) 2024-ben hozta meg első nagyobb bírságait. Az LGPD 2020-as hatálybalépését követő türelmi időszak véget ért.

Egy műszaki kihívás is fennáll: az LGPD dokumentumai brazíliai portugál nyelven íródnak. A brazíliai nemzeti azonosítók különböznek a portugáloktól és más országok azonosítóitól.

Miért különböznek a brazíliai személyes adatok

Brazília szövetségi és állami azonosítórendszerei eltérő irányban fejlődtek az európai digitális azonosítási rendszerektől. Ez egyedi azonosítókészletet hozott létre. A legtöbb NLP-eszköz angol vagy európai adatokon van betanítva, és nem ismeri fel a helyi azonosítókat.

CPF (Cadastro de Pessoas Físicas): A 11 jegyű adófizetői szám. Formátuma: XXX.XXX.XXX-XX. Két ellenőrző számjeggyel rendelkezik. A formula két különálló matematikai lépést alkalmaz — mindkettőnek egyeznie kell a CPF érvényességéhez.

A felismerési hiány nagy. Az angolra betanított NLP-eszközök csupán 45%-os pontossággal ismerik fel a CPF-et (ANPD, 2024). Két ok magyarázza ezt. Egyrészt a két lépéses ellenőrző számjegy logikát nélkülöző, 11 jegyű számokat illesztő eszközök összekeverik az érvényes CPF-számokat véletlenszerű sorozatokkal. Másrészt a CPF néha nem az XXX.XXX.XXX-XX formátumban jelenik meg — ez OCR-kimenetekben és szöveges űrlapokon fordul elő.

CNPJ (Cadastro Nacional da Pessoa Jurídica): A 14 jegyű vállalati azonosítószám. Formátuma: XX.XXX.XXX/XXXX-XX. Szintén két ellenőrző számjeggyel rendelkezik. A formula hasonló a CPF-éhez, de nem azonos.

RG (Registro Geral): Az állami polgári személyigazolvány. A formátum államenként eltér. São Paulo 2 betűt és 5–9 számjegyet használ. Rio de Janeiro 7–8 számjegyet alkalmaz kötőjellel. Minas Gerais 7–9 számjegyet használ. Más államoknak saját formátumuk van. Egy csak egy állam RG-formátumát ismerő eszköz a legtöbb RG-számot elvéti.

CNH (Carteira Nacional de Habilitação): A 11 jegyű jogosítványszám. Egy ellenőrző számjegyből és kerületi kódból áll.

Título de Eleitor: A 12 jegyű választói azonosítószám. Három részből áll: egy 8 jegyű azonosítókód, egy 2 jegyű állami kód és 2 ellenőrző számjegy.

SUS-szám (Cartão SUS): A 15 jegyű állami egészségügyi azonosító. Minden állampolgár kap egyet — minden kórházi és klinikai nyilvántartásban szerepel.

PIS/PASEP: A 11 jegyű szociális program szám. Minden munkaügyi nyilvántartásban megjelenik.

Az LGPD anonimizálási szabványa

Az LGPD 12. cikke határozza meg az anonim adatot. A mérce: olyan adat, amely „nem azonosítható, figyelembe véve a feldolgozás idején rendelkezésre álló ésszerű technikai eszközöket”. Ez technológiafüggő szabvány — a mai anonim adatok a visszaazonosítási módszerek fejlődésével a jövőben elveszíthetik anonim jellegüket.

Az ANPD további útmutatást ad. A közvetlen azonosítók — például a CPF és a név — eltávolítása önmagában nem elegendő. A kvázi-azonosítók csoportjai is lehetővé tehetik a visszaazonosítást: a korcsoportoport, a város, a nem és a foglalkozás kombinációja azonosíthat egy személyt. Ezeket csoportosítással vagy zajtechnikával kell kezelni.

Az AI-képzési adatokhoz az ANPD három feltétel egyikét írja elő. Első: az adatok megfelelnek a 12. cikk szabványának. Második: minden érintett kifejezett hozzájárulást adott a konkrét képzési felhasználáshoz. Harmadik: van érvényes, dokumentált cél.

Portugál nyelvi követelmények

A brazíliai portugál különbözik az európai portugáltól — az szavak, a helyesírás és a dokumentumformák nem azonosak. A portugáliai szövegen betanított NLP-modellek a helyi adatokon betanított modellek pontosságának körülbelül 71%-át érik el az ANPD műszaki értékelése szerint.

A PII-felismerés szempontjából lényeges különbségek:

Nevek: A kettős névhasználat és a névsorend eltér Portugáliától.
Címek: A CEP-kód formátuma XXXXX-XXX — ez az ország egyedi formátuma, saját felismerési logikát igényel.
Dokumentumszakszavak: Helyben „Carteira de Identidade”, Portugáliában „Bilhete de Identidade”. A hatóságnevekben is eltérések vannak.

Az ANPD-megfelelőség technikai szükségletei

Négy műszaki szükséglet fedezi az ANPD-megfelelőséget. A CPF és CNPJ felismerésnek kétlépéses ellenőrző számjegy validációt kell tartalmaznia. Az RG felismerésnek minden államot le kell fednie. A SUS-szám és a Título de Eleitor felismerése szintén szükséges. Az NLP-modelleket helyi brazíliai portugál szövegen kell betanítani.

Tekintse meg a globális PII-azonosító felismerési útmutatót és az LGPD 2024-es végrehajtási intézkedéseket.

Források

Kapcsolódó Cikkek

GDPR & Megfelelés

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

Ingyenes Próbát Kezd Funkciók Megtekintése

LGPD Brazília: CPF, CNPJ és adatvédelem