블로그로 돌아가기GDPR 및 준수

왜 귀하의 PII 탐지 도구는 영어 사용자에게만 GDPR 준수합니다

독일 Steuer-ID, 프랑스 NIR, 스웨덴 Personnummer는 모두 다른 탐지 논리를 요구합니다. 영어 전용 도구는 비영어 PII의 40-60%를 놓치며 — 23개 EU 공식 언어에서 GDPR 노출을 생성합니다.

March 3, 202610 분 읽기
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

숨겨진 GDPR 준수 격차

GDPR은 언어 선호도가 없습니다. 제4조(1)는 "개인 데이터"를 정의할 때 그것이 나타나는 언어에 대한 언급 없이 정의합니다. 독일 Steuer-ID는 미국 사회 보장 번호만큼 보호받습니다. 프랑스 NIR은 영국 국가 보험 번호만큼 규제됩니다.

하지만 대부분의 PII 탐지 도구는 영어를 위해 구축되었습니다.

ACL 2024에서 발표된 연구에 따르면 하이브리드 NLP 접근 방식은 유럽 지역에 대해 F1 점수 0.60-0.83을 달성합니다 — 그러나 비영어 텍스트에 적용된 영어 전용 도구는 구조화된 국가 식별자에 대해 거의 0에 가까운 점수를 기록합니다. 실질적인 의미: 다국적 조직에 배포된 익명화 도구는 영어 PII의 95%를 탐지할 수 있지만 동일한 데이터 세트에서 독일어, 프랑스어, 폴란드어 또는 네덜란드어 PII의 40-60%를 놓칠 수 있습니다.

이는 영어 중심의 익명화 도구를 사용하는 거의 모든 다국적 기업에 영향을 미치는 체계적인 GDPR 준수 격차입니다.

PII가 언어별인 이유

PII 탐지에는 두 가지 구성 요소가 있습니다: 패턴 기반 탐지 (세금 ID, 전화 형식과 같은 구조화된 식별자)와 NER 기반 탐지 (인명, 조직명, 주소와 같은 맥락적 엔터티).

두 구성 요소 모두 깊이 있는 언어별입니다.

구조화된 식별자는 국가별로 극적으로 다릅니다

국가세금 식별자형식탐지 요구 사항
독일Steuer-ID11자리, 체크섬 알고리즘모듈로-11 검증
프랑스NIR15자리 + 2자리 키INSEE 알고리즘 검증
스웨덴Personnummer10자리, 세기 표시룬 검증
폴란드PESEL11자리, 생년월일 인코딩모듈로-10 검증
네덜란드BSN9자리, 엘프프루프 (11-검사)엘프프루프 알고리즘
스페인DNI/NIE8자리 + 문자모듈로-23 검증
이탈리아Codice Fiscale16자리 알파벳 숫자복잡한 체크섬

영어 전용 SSN에 대한 정규 표현식 패턴(형식: NNN-NN-NNNN)은 이러한 식별자와 일치하지 않습니다. 각 식별자는 국가별 정규 표현식 논리와 체크섬 검증이 필요합니다.

명명된 엔터티 인식은 언어 고유 모델을 요구합니다

독일어의 인명 패턴은 영어 이름과 다릅니다. "Hans-Dieter Müller"와 "Anna-Lena Schreiber-Koch"는 맥락에 의해 독일 이름으로 인식됩니다 — 하지만 주로 영어 텍스트로 훈련된 모델은 이를 자주 놓치거나 잘못 분류합니다.

더 문제적인 것은: 한 언어의 허위 긍정이 다른 언어에서 허위 부정이 될 수 있습니다. Microsoft Presidio GitHub 이슈 추적기는 독일어 단어가 영어 PII로 잘못 분류되는 체계적인 허위 긍정을 문서화합니다. 같은 단어 "Null"(독일어로 "제로")는 영어 훈련 모델에서 이름 탐지 허위 긍정을 유발합니다. 이는 다국어 생산 환경에서 1개의 실제 엔터티당 3개의 오류로 허위 긍정 비율을 증가시킵니다 (Alvaro et al., 2024).

규제 노출

EU 데이터 보호 당국은 이 격차에 대해 점점 더 인식하고 있습니다. 여러 국가 DPA는 다국어 처리와 관련된 지침이나 집행 조치를 발표했습니다:

독일 BfDI: GDPR 제5조(1)(f) (무결성과 기밀성)가 제3자 도구로 처리된 비영어 데이터 포함 모든 처리 형태의 데이터에 적용된다고 명확히 했습니다.

프랑스 CNIL: 2024 CNIL 연례 보고서는 프랑스어 PII 탐지 기능 없이 프랑스어 데이터를 처리하는 AI 도구에 대한 우려가 증가하고 있다고 언급했습니다.

유럽 DPA 일반적으로: GDPR 제25조(프라이버시 설계)에 따라 기술적 조치는 처리되는 실제 데이터에 적합해야 하며 — 이는 다국적 배포에서 비영어 PII를 포함합니다.

실질적인 위험: 조직이 GDPR 감사 중 영어 콘텐츠에 대해 95% PII 탐지 효과를 입증할 수 있지만, 동일한 도구로 독일어, 프랑스어 및 폴란드어 콘텐츠를 처리하는 경우 감사에서 해당 언어에 대한 체계적인 격차가 드러날 수 있습니다.

다국어 PII 탐지를 위한 3단계 접근법

학술 연구와 생산 배포는 다국어 PII 탐지에 가장 효과적인 접근법으로 3단계 하이브리드 아키텍처에 수렴했습니다:

1단계: 언어 고유 spaCy 모델 (고자원 언어)

spaCy는 독일어, 프랑스어, 스페인어, 포르투갈어, 이탈리아어, 네덜란드어, 러시아어, 중국어, 일본어, 한국어, 폴란드어 등 25개 언어에 대해 훈련된 파이프라인 구성 요소를 제공합니다. 이러한 모델은 모국어 말뭉치로 훈련되어 각 언어의 형태론, 구문 및 엔터티 패턴을 이해합니다.

독일어의 경우: spaCy de_core_news_lg 모델은 복합 명사, 격 변화 및 독일 이름 패턴을 이해합니다. 프랑스어의 경우: fr_core_news_lg는 제목, 장소 이름 및 조직 형식을 포함한 프랑스어 엔터티 패턴을 처리합니다.

언어 고유 모델은 특정 고자원 언어에 적용된 교차 언어 모델보다 이름 탐지에 대해 상당히 높은 정밀도와 재현율을 달성합니다.

2단계: Stanza (추가 언어)

스탠포드의 Stanza 라이브러리는 spaCy의 상업적 제공에 포함되지 않은 추가 언어에 대한 NER을 제공합니다. 여기에는 크로아티아어, 슬로베니아어, 우크라이나어 등이 포함됩니다. 이는 EU 내에서 소규모이지만 여전히 중요한 화자 인구를 가진 언어에 대한 범위를 확장합니다.

3단계: XLM-RoBERTa (교차 언어 범위)

spaCy나 Stanza가 훈련된 NER 모델을 제공하지 않는 언어의 경우, XLM-RoBERTa는 교차 언어 전이를 제공합니다. 100개 언어에 걸쳐 Common Crawl 데이터로 훈련된 XLM-RoBERTa는 PII 탐지에 대해 91.4% 교차 언어 F1을 달성합니다 (HuggingFace 2024), 저자원 언어에 대한 합리적인 탐지를 가능하게 합니다.

교차 언어 모델은 코드 스위칭(혼합 언어 텍스트)을 특히 잘 처리합니다 — 이는 단일 문서에 여러 언어의 텍스트가 포함될 수 있는 국제 조직에 매우 중요한 속성입니다.

언어별 엔터티 유형

탐지 모델 외에도 GDPR 준수를 위해서는 국가별 식별자에 대한 엔터티 유형 범위가 필요합니다. 다국어 도구는 다음이 필요합니다:

EU 국가 식별자:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET, numéro de téléphone
  • PL: PESEL, NIP, REGON
  • NL: BSN, BurgerServiceNummer
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

전화번호 형식: 각 EU 국가는 고유한 모바일 접두사 구조, 지역 코드 형식 및 지역 다이얼링 관습을 가지고 있습니다. +49 (독일), +33 (프랑스), +48 (폴란드)는 모두 국가별 검증이 필요합니다.

주소 형식: 우편번호 형식은 극적으로 다릅니다 — 독일 PLZ (5자리), 프랑스 코드 우편 (01-99로 시작하는 5자리), 영국 우편번호 (알파벳 숫자, 여러 형식), 스페인 código postal (5자리 01000-52999).

사용 사례: 스위스 제약 다국어 문서

스위스 제약 회사는 독일어, 프랑스어 및 영어 텍스트가 포함된 고용 계약을 처리합니다 (스위스에는 4개의 공식 언어가 있습니다). 현재 도구는 독일어에 맞게 구성되어 있으며 모든 프랑스어 섹션 PII를 놓칩니다.

제네바에 기반한 직원의 고용 계약은 그들의 프랑스어 AVS 번호(13자리), 스위스 은행 계좌 IBAN, 거주 주 및 프랑스어 형식의 이름을 참조합니다. 독일어로 구성된 도구는 프랑스어 형식의 이름을 놓치고, 프랑스어 AVS 번호 패턴(독일 AHV-Nummer 형식과 다름)을 탐지하지 못하며, IBAN을 부분적으로만 탐지합니다.

3단계 접근법은 문서를 전체적으로 처리하여 각 텍스트 세그먼트에 대해 자동으로 언어를 감지하고, 언어에 적합한 NER 모델을 적용하며, 각 국가 식별자 유형에 대해 국가별 정규 표현식 검증기를 사용합니다 — 어떤 언어 섹션에 나타나든 관계없이.

혼합 언어 문서 처리

가장 어려운 다국어 PII 문제는 문서 내 언어 혼합입니다: 서로 다른 언어로 된 단락, 코드 스위칭된 문장 또는 주변 맥락과 다른 언어로 인용된 텍스트가 포함된 문서입니다.

예:

  • 독일 회사의 영어 계약서에 독일 직원 데이터(이름, 세금 ID)
  • 영어로 된 개인정보 보호 정책 발췌가 포함된 프랑스어 GDPR 동의서
  • 에이전트가 영어로 응답하지만 고객이 아랍어로 작성하는 다국어 고객 서비스 채팅 로그

XLM-RoBERTa는 이를 본질적으로 처리합니다: 그 교차 언어 훈련은 명시적인 언어 선언이 필요하지 않으며 혼합 언어 텍스트를 세분화 없이 처리합니다.

생산 배포를 위해 자동 언어 감지(문장 수준에서 적용)와 XLM-RoBERTa 교차 언어 추론의 조합은 혼합 언어 문서를 가장 강력하게 처리합니다.

실용적인 배포 지침

현재 도구의 언어 범위를 감사하세요: 현재 익명화 공급자에게 데이터의 특정 언어에 대한 F1 점수를 제공하도록 요청하세요. "20개 언어 지원"은 종종 도구가 영어 훈련된 NER을 적용하기 전에 텍스트를 Google 번역을 통해 전달한다는 것을 의미합니다 — 이는 언어 고유 탐지와는 다릅니다.

데이터를 언어에 매핑하세요: 언어 분포를 포함한 데이터 인벤토리를 수행하세요. 70% 영어, 20% 독일어 및 10% 프랑스어 데이터를 가진 다국적 기업은 95% 영어 데이터를 가진 기업과 다른 위험 노출을 가지고 있습니다.

국가 식별자 샘플로 테스트하세요: 운영과 관련된 국가 식별자(Steuer-ID, NIR, PESEL, BSN 등)의 10개 예제로 테스트 데이터 세트를 생성하고 탐지 비율을 확인하세요. 이는 대규모 F1 평가보다 빠른 감사입니다.

DPIA를 검토하세요: 익명화 도구를 다루는 데이터 보호 영향 평가가 있는 경우 언어 범위 분석이 포함되어 있는지 확인하세요. 영어 전용 범위를 가정하는 불완전한 DPIA는 업데이트가 필요할 수 있습니다.


anonym.legal의 PII 탐지 엔진은 25개 고자원 언어에 대한 언어 고유 spaCy 모델, 추가 언어 범위를 위한 Stanza, 전반적으로 48개 언어 범위를 위한 XLM-RoBERTa 교차 언어 변환기를 사용하는 3단계 다국어 접근 방식을 사용합니다. 모든 EU 회원국에 대한 국가별 엔터티 유형이 포함되어 있습니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.