LGPD 브라질: CPF, CNPJ, 개인정보 보호

브라질의 개인정보 보호법(LGPD, Lei Geral de Proteção de Dados)은 2억 1,500만 명을 보호합니다. 인구 규모 기준으로 세계에서 세 번째로 큰 데이터 보호법입니다. 독일, 프랑스, 영국을 합친 것보다 많은 인구를 포괄합니다. 국가 개인정보 보호 기관(ANPD, Autoridade Nacional de Proteção de Dados)은 2024년에 처음으로 주요 제재를 부과했습니다. LGPD가 2020년 시행된 이후 유예 기간이 종료되었습니다.

기술적인 과제도 있습니다. LGPD 문서는 브라질 포르투갈어로 작성되어 있습니다. 브라질의 국가 식별 정보는 포르투갈의 것과 다르며, 다른 어떤 나라의 것과도 다릅니다.

브라질 개인정보가 특별한 이유

브라질의 연방 및 주 ID 시스템은 유럽의 디지털 신원 시스템과 별개로 발전했습니다. 그 결과 고유한 식별 정보 집합이 만들어졌습니다. 대부분의 NLP 도구는 영어 또는 유럽 데이터로 학습되어 현지 ID를 감지하지 못합니다.

CPF (Cadastro de Pessoas Físicas): 11자리 납세자 번호입니다. 형식: XXX.XXX.XXX-XX. 두 개의 검사 숫자가 있습니다. 계산 공식은 두 가지 수학적 단계를 거치며 둘 다 일치해야 유효합니다.

감지 격차가 큽니다. 영어 학습 NLP 도구의 CPF 감지 정확도는 45%에 불과합니다(ANPD, 2024). 두 가지 이유가 있습니다. 첫째, 두 단계 검사 숫자 로직 없이 11자리 숫자만 일치시키는 도구는 유효한 CPF와 무작위 숫자열을 혼동합니다. 둘째, CPF가 항상 XXX.XXX.XXX-XX 형식으로 표시되지는 않습니다. OCR 출력이나 일반 텍스트 양식에서는 형식 없이 나타날 수 있습니다.

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14자리 사업자 등록 번호입니다. 형식: XX.XXX.XXX/XXXX-XX. 두 개의 검사 숫자가 있습니다. 계산 공식은 CPF와 유사하지만 동일하지 않습니다.

RG (Registro Geral): 주(州) 주민등록증입니다. 형식은 주마다 다릅니다. 상파울루는 2글자와 5~~9자리 숫자를 사용합니다. 리우데자네이루는 대시가 있는 7~~8자리 숫자입니다. 미나스제라이스는 7~9자리 숫자입니다. 다른 주들도 각자의 형식이 있습니다. 한 주의 RG만 아는 도구는 대부분의 RG 번호를 놓칩니다.

CNH (Carteira Nacional de Habilitação): 11자리 운전면허 번호입니다. 하나의 검사 숫자가 있으며 지역 코드가 포함됩니다.

Título de Eleitor: 12자리 선거인 ID 번호입니다. 8자리 ID 코드, 2자리 주 코드, 2자리 검사 숫자로 구성됩니다.

SUS 번호 (Cartão SUS): 15자리 공공 의료보험 ID입니다. 모든 국민에게 발급됩니다. 모든 병원 및 클리닉 기록에 등장합니다.

PIS/PASEP: 11자리 사회보장 번호입니다. 모든 고용 기록에 포함됩니다.

LGPD 익명화 기준

LGPD 제12조는 익명 데이터를 정의합니다. 기준: 데이터가 "처리 시점의 합리적인 기술적 수단을 고려할 때 식별될 수 없는" 것이어야 합니다. 이는 기술 상대적 기준입니다. 오늘날의 익명 데이터는 재식별 방법이 발전함에 따라 더 이상 익명이 아닐 수 있습니다.

ANPD는 추가 지침을 제공합니다. CPF나 이름 같은 직접 식별 정보를 제거하는 것만으로는 충분하지 않습니다. 준식별자(quasi-identifier)들의 조합도 재식별을 허용할 수 있습니다. 연령대, 도시, 성별, 직업을 함께 보면 개인을 식별할 수 있습니다. 이런 정보는 그룹화하거나 노이즈를 추가하여 처리해야 합니다.

AI 학습 데이터의 경우, ANPD는 세 가지 조건 중 하나를 요구합니다. 첫째: 데이터가 제12조 기준을 충족합니다. 둘째: 각 정보 주체가 특정 학습 목적에 명시적으로 동의했습니다. 셋째: 유효하고 문서화된 목적이 있습니다.

포르투갈어 요건

브라질 포르투갈어는 유럽 포르투갈어와 다릅니다. 단어, 철자, 문서 양식이 동일하지 않습니다. 포르투갈 텍스트로 학습된 NLP 모델은 현지 텍스트로 학습된 모델 정확도의 약 71%에 불과합니다. ANPD 기술 평가에서 나온 수치입니다.

개인정보 감지에 영향을 미치는 주요 차이점:

이름: 이중 성씨 사용 및 이름 순서가 포르투갈과 다릅니다.
주소: CEP 코드는 XXXXX-XXX 형식을 사용합니다. 이 형식은 이 나라에만 고유하며 별도의 감지 로직이 필요합니다.
문서 용어: 여기서는 "Carteira de Identidade", 포르투갈에서는 "Bilhete de Identidade"입니다. 기관명도 다릅니다.

ANPD 규정 준수에 필요한 것

네 가지 기술적 요건이 ANPD 규정 준수를 포괄합니다. CPF 및 CNPJ 감지는 두 단계 검사 숫자 검증을 포함해야 합니다. RG 감지는 모든 주의 형식을 포함해야 합니다. SUS 번호와 Título de Eleitor 감지도 필요합니다. NLP 모델은 현지 포르투갈어 텍스트로 학습되어야 합니다.

전 세계 개인정보 식별자 감지 가이드 및 2024년 ANPD 브라질 LGPD 집행 가이드도 참고하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

LGPD 브라질: CPF, CNPJ, 개인정보 보호