GDPR 준수를 위한 다국어 PII 감지
2026년 업데이트
숨겨진 GDPR 격차
GDPR에는 언어 선호도가 없습니다. 제4조 제1항은 등장하는 언어를 명시하지 않고 "개인 데이터"를 정의합니다. 독일의 Steuer-ID는 미국의 사회보장번호만큼 보호됩니다. 프랑스의 NIR은 영국의 국민보험번호만큼 규제됩니다.
대부분의 PII 감지 도구는 영어 전용으로 구축되었습니다.
ACL 2024 연구에 따르면 하이브리드 NLP 도구는 유럽 로케일에서 F1 점수 0.60-0.83을 달성합니다. 영어 전용 도구는 영어가 아닌 국가 ID 형식에서 거의 0에 가깝습니다. 격차가 두드러집니다. 도구가 영어 PII의 95%를 감지할 수 있지만, 같은 파일의 독일어, 프랑스어, 폴란드어, 네덜란드어 PII의 40-60%를 놓칩니다. 이는 심각한 문제입니다. 기업들이 노출되게 합니다.
이것은 실제 GDPR 격차입니다. 영어 중심 편집 도구를 사용하는 거의 모든 글로벌 기업에 영향을 미칩니다. 자세한 내용은 GDPR 가이드를 참조하세요.
PII가 로케일 특정적인 이유
PII 감지에는 두 가지 부분이 있습니다.
첫 번째는 패턴 기반 스캔입니다. 세금 번호, 전화 형식 등 구조화된 ID를 다룹니다.
두 번째는 NER 기반 스캔입니다. 이름과 주소 같은 맥락적 개체를 다룹니다.
두 부분 모두 로케일에 따라 다릅니다.
국가별 구조화된 ID
| 국가 | 세금 ID | 형식 | 검증 |
|---|---|---|---|
| 독일 | Steuer-ID | 11자리 | 모듈로-11 |
| 프랑스 | NIR | 15자리 + 2자리 키 | INSEE |
| 스웨덴 | Personnummer | 10자리 | Luhn |
| 폴란드 | PESEL | 11자리 | 모듈로-10 |
| 네덜란드 | BSN | 9자리 | Elfproef |
| 스페인 | DNI/NIE | 8자리 + 문자 | 모듈로-23 |
| 이탈리아 | Codice Fiscale | 16자 | 맞춤형 체크섬 |
SSN(NNN-NN-NNNN)을 위한 영어 전용 정규식은 이 형식들 중 어느 것도 일치하지 않습니다. 각각 고유한 정규식이 필요합니다. 각각 고유한 체크섬 로직도 필요합니다.
NER은 네이티브 모델이 필요합니다
독일어 이름은 영어 이름과 다릅니다. "Hans-Dieter Müller"는 네이티브 독일어 모델에서 명확합니다. 영어로 훈련된 모델은 종종 이런 이름을 놓칩니다.
거짓 양성도 문제입니다. Microsoft Presidio 이슈 트래커에는 독일 단어가 영어 PII로 잘못 분류되는 사례가 있습니다. "Null"(독일어로 "영")이 한 예입니다. 영어로 훈련된 모델에서 이름 거짓 양성을 유발합니다. 실제 운영에서 오류율은 실제 개체당 3개의 거짓 양성으로 높아집니다(Alvaro 외, 2024).
규제 위험
EU 데이터 기관들은 이 문제를 인식하고 있습니다. 여러 국가 DPA가 지침을 발표했습니다.
독일 BfDI: GDPR 제5조 제1항 (f)는 모든 기록에 적용됩니다. 제3자 도구로 처리되는 비영어 데이터를 포함합니다.
프랑스 CNIL: 2024 CNIL 연례 보고서에서 우려를 제기했습니다. 프랑스어 로케일 PII 스캔 없이 프랑스어 기록을 처리하는 AI 도구를 지적했습니다.
EU DPA 전반: GDPR 제25조(설계에 의한 개인정보보호)는 실제 처리되는 기록에 적합한 안전장치를 요구합니다. 글로벌 배포의 비영어 PII를 포함합니다.
위험은 명확합니다. 기업이 GDPR 감사에서 영어 콘텐츠에 대한 95% PII 감지를 보여줄 수 있습니다. 하지만 같은 도구로 독일어, 프랑스어, 폴란드어 기록도 처리한다면 격차가 나타납니다. 감사자들이 주목합니다. 과징금이 따를 수 있습니다. 이를 해결하는 방법은 안전장치 페이지를 참조하세요.
3계층 설계
연구와 실제 운영 모두 3계층 하이브리드 설계를 최선의 접근법으로 동의합니다.
1계층: 네이티브 spaCy 모델
spaCy는 25개 로케일에 대한 훈련된 모델을 제공합니다. 독일어, 프랑스어, 스페인어, 포르투갈어, 이탈리아어, 네덜란드어, 러시아어, 중국어, 일본어, 한국어, 폴란드어를 포함합니다. 각 모델은 네이티브 텍스트로 훈련됩니다. 각 로케일의 문법과 개체 패턴을 학습합니다. 이것이 중요합니다. 네이티브 훈련은 더 높은 재현율과 더 적은 거짓 양성을 의미합니다.
독일어의 경우: de_core_news_lg가 복합어와 독일어 이름 패턴을 처리합니다.
프랑스어의 경우: fr_core_news_lg가 프랑스어 개체, 직함, 지명, 기관을 처리합니다.
고자원 로케일의 이름 스캔에서 네이티브 모델이 교차 언어 모델을 능가합니다.
2계층: 더 많은 로케일을 위한 Stanza
Stanford의 Stanza 라이브러리는 spaCy에 없는 로케일을 포함합니다. 크로아티아어, 슬로베니아어, 우크라이나어를 포함합니다. spaCy가 지원하지 않는 EU 화자 그룹을 위한 범위를 추가합니다. Stanza는 무료 오픈 소스입니다. 나머지 스택과 잘 통합됩니다.
3계층: 광범위한 범위를 위한 XLM-RoBERTa
spaCy와 Stanza에 NER 모델이 없는 로케일의 경우, XLM-RoBERTa가 공백을 채웁니다. 100개 로케일에 걸쳐 Common Crawl 텍스트로 훈련됩니다. PII 감지에서 91.4% 교차 언어 F1을 달성합니다(HuggingFace 2024). 코드 전환을 잘 처리합니다. 이것이 핵심 기능입니다. 하나의 문서에 여러 로케일의 텍스트가 있을 때 중요합니다.
API 호출이 다국어 볼륨과 어떻게 확장되는지는 토큰 시스템 문서를 방문하세요.
로케일별 개체 유형
모델만으로는 충분하지 않습니다. GDPR 준수를 위해서는 국가별 ID에 대한 개체 유형 범위도 필요합니다.
국가별 EU 국가 ID:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
전화 형식: 각 EU 국가는 고유한 접두사 구조를 가집니다. +49, +33, +48은 각각 고유한 검증 로직이 필요합니다.
주소 형식: 우편 번호는 크게 다릅니다. 독일 PLZ는 5자리입니다. 프랑스 코드는 5자리(01-99 범위)입니다. 영국 우편 번호는 영숫자입니다. 스페인 코드는 5자리(01000-52999)입니다.
실제 사례: 스위스 제약 회사
스위스 기업이 고용 계약을 처리합니다. 각 계약은 독일어, 프랑스어, 영어 텍스트가 혼합되어 있습니다. 스위스에는 4개의 공식 언어가 있습니다. 그들의 도구는 독일어만으로 설정되어 있었습니다. 프랑스어 섹션의 PII를 모두 놓쳤습니다.
제네바에 기반한 직원을 위한 계약에는 프랑스어 AVS 번호(13자리), 스위스 은행 IBAN, 프랑스어 형식의 이름이 포함되었습니다. 독일어 전용 도구는 프랑스어 형식의 이름을 놓쳤습니다. 프랑스어 AVS 번호를 찾지 못했습니다. IBAN은 부분적으로만 감지했습니다.
3계층 접근법은 전체 문서를 처리합니다. 텍스트 세그먼트별로 로케일을 감지합니다. 각 부분에 올바른 NER 모델을 적용합니다. 올바른 국가 로직으로 각 국가 ID를 검증합니다.
혼합 로케일 문서
가장 어려운 경우는 문서 내 로케일 혼합입니다. 예시:
- 독일 직원 기록(이름, 세금 ID)이 포함된 독일 기업의 영어 계약
- 영어 개인정보 발췌문이 포함된 프랑스어 GDPR 동의 양식
- 상담원은 영어로 답하고 고객은 아랍어로 쓰는 채팅
XLM-RoBERTa는 이를 기본적으로 처리합니다. 명시적 로케일 플래그가 필요 없습니다. 사전 세분화 없이 혼합 로케일 텍스트를 처리합니다. 시간을 절약합니다. 잘못된 분할로 인한 오류도 방지합니다.
실제 운영에서 문장 수준 자동 로케일 감지와 XLM-RoBERTa 추론을 결합하면 혼합 로케일 문서를 강력하게 처리할 수 있습니다.
실용적인 단계
도구 범위를 감사하세요. 특정 로케일에 대한 F1 점수를 편집 벤더에 요청하세요. "20개 언어 지원"은 도구가 먼저 기계 번역을 통해 텍스트를 라우팅한다는 의미인 경우가 많습니다. 그것은 네이티브 스캔이 아닙니다.
기록을 로케일에 매핑하세요. 로케일 분포를 포함하는 기록 인벤토리를 수행하세요. 영어 70%, 독일어 20%, 프랑스어 10%를 가진 글로벌 기업은 다른 위험에 직면합니다. 영어 95%인 기업은 다른 상황에 있습니다.
국가 ID 샘플로 테스트하세요. 운영에 사용되는 국가 ID의 10가지 예시로 테스트 세트를 구성하세요 — Steuer-ID, NIR, PESEL, BSN 등. 감지율을 확인하세요. 전체 F1 테스트보다 빠릅니다.
DPIA를 검토하세요. 로케일 범위가 포함되었는지 확인하세요. 영어 전용 기록을 가정하는 불완전한 DPIA는 업데이트가 필요할 수 있습니다. 지금 조치하세요. 감사가 격차를 발견할 때까지 기다리지 마세요.
전체 개체 유형 정의는 엔터티 참조와 FAQ를 참조하세요. 요금제와 API 호출 속도는 가격을 방문하세요.
anonym.legal의 PII 감지 엔진은 3계층 다국어 접근법을 사용합니다. 네이티브 spaCy 모델로 25개 고자원 로케일을 포함합니다. Stanza가 추가 로케일 범위를 더합니다. XLM-RoBERTa 교차 언어 트랜스포머가 48개 로케일로 범위를 확장합니다. 모든 EU 회원국에 대한 국가별 개체 유형이 포함됩니다.