프랑스 CNIL: DPA PII 도구 요구사항
프랑스 CNIL은 EU에서 가장 까다로운 데이터 감독기관입니다. 대부분의 EU 규제기관이 광범위한 규정을 작성하는 반면, CNIL은 한 걸음 더 나아갑니다. recommandations(권고안)라고 불리는 정밀한 기술 지침을 발행하여 익명화 및 AI 데이터 사용에 대한 정확한 기준을 제시합니다.
2024년 CNIL의 시정 명령은 AI 시스템의 취약한 익명화를 자주 지적했습니다. 2023년에 16,433건의 민원을 접수했으며, 이는 2022년 대비 43% 증가한 수치입니다.
CNIL 지침이 EU 정책을 형성하는 방식
CNIL의 기술 문서는 다른 EU 데이터 보호 감독기관에서 광범위하게 인용됩니다. 두 가지 가이드가 특히 중요합니다.
익명화 실무 가이드(2023): k-익명성, l-다양성, 차등 프라이버시를 다룹니다. 프랑스 데이터에 각 방법을 적용하는 방법을 보여줍니다. 스웨덴 IMY와 다른 EU 기관들이 자체 규정에서 이 가이드를 인용합니다.
AI 시스템 가이드(2024): CNIL은 AI 학습에서 처리해야 할 6가지 데이터 유형을 나열합니다. 어떤 EU 데이터 보호 감독기관도 AI에 관해 이 수준까지 나아가지 않았습니다.
쿠키 규정: CNIL의 쿠키 가이드는 EU에서 동의 도구에 대한 가장 높은 기술적 기준을 설정합니다. 자주 업데이트됩니다.
NIR: 프랑스의 가장 민감한 식별자
NIR(Numéro d'Inscription au Répertoire, numéro de sécurité sociale라고도 함)은 15자리 프랑스 사회보장번호입니다.
형식: S AA MM DD CCC OOO K
- S — 1자리: 성별
- AA — 출생 연도
- MM — 출생 월
- DD — 출생 지역(01-95, 코르시카는 2A/2B, 해외 영토는 97-99, 외국 출생은 99)
- CCC — 지역 코드
- OOO — 출생 순서
- K — 2자리 검사 키(97 − (NIR mod 97))
NIR은 하나의 번호에 성별, 생년월일, 출생지를 담고 있습니다. CNIL은 이를 고위험으로 분류합니다. GDPR 제9조의 특별 범주 데이터와 동일한 수준의 주의가 필요합니다.
도구가 NIR을 놓치는 이유: 일반 NLP 도구는 세 가지 이유로 NIR 감지에 실패합니다. 첫째, 15자리(공백 없이 표기되는 경우가 많음)가 다른 긴 숫자와 구분이 어렵습니다. 둘째, 7-11번째 자릿수에 지역 코드가 포함되어 있습니다. mod-97 검사를 건너뛰는 도구는 오탐을 허용합니다. 셋째, 코르시카 지역은 순수 숫자가 아닌 2A와 2B를 사용합니다. 숫자 전용 패턴으로 구축된 도구는 여기서 실패합니다.
정확한 NIR 감지에는 세 가지가 필요합니다: mod-97 키 검사, 지역 코드북, 코르시카 인식 규칙.
식별자 커버리지가 GDPR 안전조치 스택에 어떻게 맞는지는 보안 컴플라이언스 개요를 참조하세요.
SIREN과 SIRET: 개인 파일 속 사업자 ID
SIREN: Luhn 검사 자릿수를 가진 9자리 프랑스 기업 ID. 모든 프랑스 상업 문서에 등장합니다.
SIRET: SIREN(9자리) + 사업장 코드(5자리)로 구성된 14자리 번호. SIRET는 사업장을, SIREN은 기업을 식별합니다.
사업 파일에는 직원 이름 옆에 SIRET 번호가 포함되는 경우가 많습니다. CNIL은 SIRET와 이름의 조합을 개인정보로 분류합니다. 별도의 개인정보 필드가 없어도 이 조합은 GDPR 규정을 적용받습니다.
AI 학습을 위한 6단계 익명화
CNIL의 2024년 AI 가이드는 6가지 데이터 유형을 다룹니다. 프랑스 개인 기록을 AI 학습에 사용하기 전에 각각 처리해야 합니다:
- 직접 식별자 제거 — 이름, NIR, SIREN을 교체하거나 제거해야 함
- 준식별자 일반화 — 나이, 지역, 직업의 조합이 재식별 가능; 정밀도를 낮춰야 함
- 수치 필드에 노이즈 추가 — 수치 필드에 교정된 노이즈를 추가해 추론 차단
- k-익명성 확인 — 각 개인이 최소 k-1명의 다른 사람과 구분되지 않아야 함; CNIL은 k ≥ 5 권장
- l-다양성 확인 — 민감한 속성이 각 그룹 내에서 다양해야 함
- 재식별 위험 평가 실시 — 데이터 공개 전 문서화된 방법 사용
NIR과 전체 이름 제거만으로는 충분하지 않습니다. CNIL은 집행 과정에서 이를 확인했습니다. 우편번호와 의료 전문 분야 같은 준식별자도 처리가 필요합니다.
프랑스 DPA 감사에서 요구하는 기록에 대해서는 GDPR 컴플라이언스 가이드를 참조하세요.
프랑스어 PII 감지를 위한 언어 맥락
프랑스에는 감지에 영향을 미치는 여러 언어적 맥락이 있습니다.
표준 프랑스어는 모든 공식 문서의 언어입니다. NER 모델은 악센트 문자를 처리해야 합니다: é, è, ê, ë, à, â, î, ô, û, ç, œ.
해외 영토(DOM-TOM): 마르티니크, 과들루프, 레위니옹, 기아나, 마요트는 97-98 범위의 NIR 코드를 사용합니다. 지역 이름 패턴이 프랑스 본토와 다릅니다.
알자스-모젤: 독일 기원의 이름과 일부 독일어 문서 형식이 프랑스 기록에 등장합니다. 표준 프랑스어로만 학습된 모델은 이를 놓칠 수 있습니다.
국경 간 사용: 벨기에 프랑스어는 다른 ID 형식을 사용합니다. 프랑스와 벨기에에서 사용되는 도구는 각각에 대한 규칙이 필요합니다.
도구가 갖춰야 할 요건
프랑스 컴플라이언스는 네 가지 기술 능력을 요구합니다:
- mod-97 검사를 갖춘 NIR 감지 — 패턴 매칭만으로는 실패합니다. 도구는 키 검사를 실행하고 2A/2B 코드를 처리해야 합니다.
- Luhn 검사를 갖춘 SIREN/SIRET 감지 — 사업자 ID가 개인 파일에 등장하며 GDPR이 적용되는 이름 조합을 생성합니다.
- 완전한 악센트 지원을 갖춘 프랑스어 NER — 복합 이름(Jean-Pierre), 전치사(de, du, des), 악센트 문자를 처리해야 합니다.
- 문서화된 6단계 프로세스 — 프랑스 데이터에 대한 모든 AI 학습 파이프라인은 각 익명화 활동에 대한 서면 기록이 필요합니다.