LGPD Brazília: CPF, CNPJ és adatvédelem
Brazília Lei Geral de Proteção de Dados (LGPD) törvénye 215 millió embert véd. Ez a világ harmadik legnagyobb adatvédelmi törvénye népesség szerint — több embert fed le, mint Németország, Franciaország és az Egyesült Királyság együttesen. Az Autoridade Nacional de Proteção de Dados (ANPD) 2024-ben hozta meg első nagyobb bírságait. Az LGPD 2020-as hatálybalépését követő türelmi időszak véget ért.
Egy műszaki kihívás is fennáll: az LGPD dokumentumai brazíliai portugál nyelven íródnak. A brazíliai nemzeti azonosítók különböznek a portugáloktól és más országok azonosítóitól.
Miért különböznek a brazíliai személyes adatok
Brazília szövetségi és állami azonosítórendszerei eltérő irányban fejlődtek az európai digitális azonosítási rendszerektől. Ez egyedi azonosítókészletet hozott létre. A legtöbb NLP-eszköz angol vagy európai adatokon van betanítva, és nem ismeri fel a helyi azonosítókat.
CPF (Cadastro de Pessoas Físicas): A 11 jegyű adófizetői szám. Formátuma: XXX.XXX.XXX-XX. Két ellenőrző számjeggyel rendelkezik. A formula két különálló matematikai lépést alkalmaz — mindkettőnek egyeznie kell a CPF érvényességéhez.
A felismerési hiány nagy. Az angolra betanított NLP-eszközök csupán 45%-os pontossággal ismerik fel a CPF-et (ANPD, 2024). Két ok magyarázza ezt. Egyrészt a két lépéses ellenőrző számjegy logikát nélkülöző, 11 jegyű számokat illesztő eszközök összekeverik az érvényes CPF-számokat véletlenszerű sorozatokkal. Másrészt a CPF néha nem az XXX.XXX.XXX-XX formátumban jelenik meg — ez OCR-kimenetekben és szöveges űrlapokon fordul elő.
CNPJ (Cadastro Nacional da Pessoa Jurídica): A 14 jegyű vállalati azonosítószám. Formátuma: XX.XXX.XXX/XXXX-XX. Szintén két ellenőrző számjeggyel rendelkezik. A formula hasonló a CPF-éhez, de nem azonos.
RG (Registro Geral): Az állami polgári személyigazolvány. A formátum államenként eltér. São Paulo 2 betűt és 5–9 számjegyet használ. Rio de Janeiro 7–8 számjegyet alkalmaz kötőjellel. Minas Gerais 7–9 számjegyet használ. Más államoknak saját formátumuk van. Egy csak egy állam RG-formátumát ismerő eszköz a legtöbb RG-számot elvéti.
CNH (Carteira Nacional de Habilitação): A 11 jegyű jogosítványszám. Egy ellenőrző számjegyből és kerületi kódból áll.
Título de Eleitor: A 12 jegyű választói azonosítószám. Három részből áll: egy 8 jegyű azonosítókód, egy 2 jegyű állami kód és 2 ellenőrző számjegy.
SUS-szám (Cartão SUS): A 15 jegyű állami egészségügyi azonosító. Minden állampolgár kap egyet — minden kórházi és klinikai nyilvántartásban szerepel.
PIS/PASEP: A 11 jegyű szociális program szám. Minden munkaügyi nyilvántartásban megjelenik.
Az LGPD anonimizálási szabványa
Az LGPD 12. cikke határozza meg az anonim adatot. A mérce: olyan adat, amely „nem azonosítható, figyelembe véve a feldolgozás idején rendelkezésre álló ésszerű technikai eszközöket”. Ez technológiafüggő szabvány — a mai anonim adatok a visszaazonosítási módszerek fejlődésével a jövőben elveszíthetik anonim jellegüket.
Az ANPD további útmutatást ad. A közvetlen azonosítók — például a CPF és a név — eltávolítása önmagában nem elegendő. A kvázi-azonosítók csoportjai is lehetővé tehetik a visszaazonosítást: a korcsoportoport, a város, a nem és a foglalkozás kombinációja azonosíthat egy személyt. Ezeket csoportosítással vagy zajtechnikával kell kezelni.
Az AI-képzési adatokhoz az ANPD három feltétel egyikét írja elő. Első: az adatok megfelelnek a 12. cikk szabványának. Második: minden érintett kifejezett hozzájárulást adott a konkrét képzési felhasználáshoz. Harmadik: van érvényes, dokumentált cél.
Portugál nyelvi követelmények
A brazíliai portugál különbözik az európai portugáltól — az szavak, a helyesírás és a dokumentumformák nem azonosak. A portugáliai szövegen betanított NLP-modellek a helyi adatokon betanított modellek pontosságának körülbelül 71%-át érik el az ANPD műszaki értékelése szerint.
A PII-felismerés szempontjából lényeges különbségek:
- Nevek: A kettős névhasználat és a névsorend eltér Portugáliától.
- Címek: A CEP-kód formátuma XXXXX-XXX — ez az ország egyedi formátuma, saját felismerési logikát igényel.
- Dokumentumszakszavak: Helyben „Carteira de Identidade”, Portugáliában „Bilhete de Identidade”. A hatóságnevekben is eltérések vannak.
Az ANPD-megfelelőség technikai szükségletei
Négy műszaki szükséglet fedezi az ANPD-megfelelőséget. A CPF és CNPJ felismerésnek kétlépéses ellenőrző számjegy validációt kell tartalmaznia. Az RG felismerésnek minden államot le kell fednie. A SUS-szám és a Título de Eleitor felismerése szintén szükséges. Az NLP-modelleket helyi brazíliai portugál szövegen kell betanítani.
Tekintse meg a globális PII-azonosító felismerési útmutatót és az LGPD 2024-es végrehajtási intézkedéseket.