EU 회원국의 GDPR 준수: 귀하의 PII 도구가 놓치고 있는 국가 식별자
세금 식별 번호는 모든 관할권에서 가장 민감한 개인 식별자 중 하나입니다. 이들은 세금 신고, 정부 혜택, 고용 확인 및 금융 계좌 개설에 사용됩니다. 잘못된 손에 들어가면 신원 도용, 사기 및 무단 혜택 청구를 가능하게 합니다.
GDPR은 이를 일반 개인 데이터(특별 범주 아님)로 분류하지만, 그 민감성은 높고 노출은 상당한 실제 위험을 초래합니다. 모든 EU 회원국은 고유한 국가 식별자 형식을 가지고 있으며, 미국 또는 영국 시장을 위해 구축된 대부분의 PII 도구는 SSN과 NINO를 유창하게 감지하는 반면, 유럽 조직이 매일 처리하는 Steueridentifikationsnummer, Codice Fiscale 및 BSN은 완전히 놓칩니다.
유럽의 세금 ID 환경
각 EU 회원국은 국가 식별을 다르게 구현합니다:
독일: Steueridentifikationsnummer (Steuer-ID)
- 11자리, 출생 시 할당
- 형식: 첫 번째 숫자는 0이 아닌 숫자, 10자리 부분에 선행 0 없음
- 예: 12345678901
- 또한: Steuernummer (주마다 다름: 10-11자리, 주별 형식)
프랑스: Numéro fiscal de référence (SPI)
- 13자리
- 세무 행정 기관(DGFiP)에서 발급
- 세금 문서에서 종종 "Identifiant fiscal"로 나타남
이탈리아: Codice Fiscale
- 16자리 알파벳 숫자
- 구조: 3글자(성) + 3글자(이름) + 2자리(출생 연도) + 1글자(월) + 2자리(일) + 4자리 알파벳 숫자(지자체 코드)
- 예: RSSMRA85M01H501Z
- 높은 특수성 형식, 체크섬으로 검증 가능
스페인: NIF (Número de Identificación Fiscal)
- 스페인 국민: DNI 번호 + 체크 문자(8자리 + 문자), 예: 12345678A
- 외국인: NIE (X/Y/Z + 7자리 + 문자), 예: X1234567A
- 법인: CIF (문자 + 8자리), 예: B12345678
네덜란드: BSN (Burgerservicenummer)
- 체크 숫자 검증이 있는 9자리(11-proef 알고리즘)
- 모든 정부 서비스에 사용되며 종종 고용 및 혜택 문서에 나타남
폴란드: PESEL
- 출생 날짜, 성별 및 순서 번호를 인코딩하는 11자리
- 형식: YYMMDDXXXXX (첫 6자리에서 출생 날짜 인코딩)
벨기에: Numéro de registre national (RN)
- 출생 날짜, 순서 및 체크 숫자를 인코딩하는 11자리
포르투갈: NIF (Número de Identificação Fiscal)
- 체크 숫자가 있는 9자리
- 약어는 동일하지만 스페인의 NIF와 형식이 다름
스웨덴: Personnummer
- 출생 날짜와 순서를 인코딩하는 10자리 또는 12자리
- 형식: YYYYMMDD-XXXX 또는 YYMMDD-XXXX
핀란드: Henkilötunnus (HETU)
- 날짜, 구분 기호, 순서 및 체크 숫자를 인코딩하는 11자리
- 형식: DDMMYY-XXXC
표준 도구가 놓치는 것
미국/영국 시장을 위해 구축된 PII 감지 도구는 일반적으로 다음을 포함합니다:
- 미국 SSN (XXX-XX-XXXX)
- 영국 NINO (XX 99 99 99 X)
- 미국 여권 번호
- 미국 운전 면허증 패턴
- 주요 신용 카드 번호
유럽 국가 식별자 — Codice Fiscale, BSN 및 Steuer-ID와 같은 주요 식별자조차도 기본 구성에서 자주 누락됩니다. EU 특정 확장이 없는 Presidio의 기본 인식기 세트를 지원하는 도구는 이를 완전히 놓칩니다.
다국적 조직에 대한 운영적 영향
독일의 급여 아웃소싱 회사는 500개 고객 회사의 문서를 처리합니다. 그들의 익명화 워크플로우는 다음을 올바르게 제거합니다:
- 직원 이름 ✓
- 이메일 주소 ✓
- IBAN 번호 ✓
- 전화번호 ✓
- 독일 Steueridentifikationsnummern ✗ — 표준 구성에 없음
DPA 감사 결과는 고객 회계 부서와 공유된 급여 명세서 PDF에 수정되지 않은 Steuer-IDs가 포함되어 있음을 지적합니다. 이 회사는 다음에 직면합니다:
- 역사적 문서에 대한 수정 비용
- DPA 집행 조치 (GDPR 제83조에 따른 잠재적 벌금)
- 직원 데이터가 노출된 고객에 대한 계약적 책임
준수 격차는 사전적으로 발견되지 않았습니다 — 규제 기관에 의해 발견되었습니다.
EU 국가 식별자 추가: 우선 순위 목록
여러 EU 관할권에서 운영하는 조직의 경우, 사용자 정의 엔티티 구성에 대한 우선 순위:
1단계 (가장 높은 데이터 처리량):
- 독일: Steueridentifikationsnummer (고용 중심 문서)
- 프랑스: Numéro fiscal (급여, 세금 문서)
- 이탈리아: Codice Fiscale (매우 일반적, 모든 공식 문서에 나타남)
- 스페인: NIF/NIE (급여, 계약, 세금 문서)
- 네덜란드: BSN (고용, 정부 혜택)
2단계 (상당하지만 작은 시장): 6. 폴란드: PESEL (폴란드의 노동력 규모에 따라 중요성 증가) 7. 벨기에: RN (벨기에는 많은 EU 기관이 있음) 8. 스웨덴: Personnummer (높은 개인 정보 보호 인식, 엄격한 집행) 9. 포르투갈: NIF (성장하는 기술 부문) 10. 오스트리아: Sozialversicherungsnummer (사회 보장 맥락)
3단계 (특정 사용 사례): 조직이 데이터를 처리하는 나머지 17개 EU 회원국.
구현 예: Steueridentifikationsnummer 추가
독일 세금 식별 번호 (Steuer-ID)는 높은 정확도로 감지할 수 있는 특정 형식을 따릅니다:
패턴 특성:
- 11자리
- 첫 번째 숫자: 1-9 (절대 0 아님)
- 세 자리 동일한 연속 숫자 없음
- 체크 숫자 검증 (사용자 정의 알고리즘)
패턴 생성을 위한 평이한 언어 설명: "독일 세금 식별 번호: 첫 번째 숫자가 1과 9 사이인 11자리 숫자이며 나머지 10자리는 0을 포함할 수 있습니다."
생성된 패턴: Steueridentifikationsnummer에 대한 적절한 컨텍스트 매칭이 있는 유효한 정규 표현식 (독일어 세금 문서 컨텍스트가 정밀도를 향상시킴)
검증: 독일 급여 명세서 및 세금 증명서 샘플 세트에 대해 테스트합니다. 생산 배포 전에 감지율 및 허위 긍정율을 검증합니다.
통합: 독일어 문서 처리 프리셋에 추가합니다. 혼합 언어 문서 세트를 처리하는 경우, 언어 감지와 결합하여 언어별로 적절한 국가 식별자 패턴을 적용합니다.
단일 워크플로우에서 여러 국가 식별자 처리
여러 EU 국가의 문서를 처리하는 다국적 급여 프로세서의 경우:
옵션 1: 국가별 별도 프리셋 "독일 GDPR" 프리셋, "프랑스 GDPR" 프리셋 등을 만듭니다. 문서 출처에 따라 관련 프리셋을 적용합니다.
옵션 2: 통합 EU 프리셋 모든 EU 국가 식별자 패턴이 활성화된 단일 프리셋을 만듭니다. 일반 텍스트에 대한 허위 긍정 위험이 더 높지만(우연히 Steuer-ID 패턴과 일치하지만 세금 ID가 아닌 11자리 숫자), 운영상 더 간단합니다. 국가 식별자가 전반적으로 예상되는 문서 유형에 적합합니다.
급여 문서의 경우: 옵션 1 (국가별 프리셋)과 적절한 라우팅 혼합 문서 세트의 경우: 옵션 2와 임계값 조정
결론
GDPR은 EU 전역에서 균일하게 적용되지만, 미국 시장을 위해 구축된 PII 감지 도구는 그렇지 않은 경우가 많습니다. Codice Fiscale, BSN 및 Steueridentifikationsnummer는 SSN만큼 민감하며 — 조직이 공유, 내보내기 및 분석하는 문서에 나타날 가능성이 높습니다.
사용자 정의 엔티티 생성은 몇 시간 내에 모든 국가 식별자 형식에 대한 감지 격차를 해소합니다. 준수 팀은 Steuer-ID 패턴을 추가하고, 독일 급여 명세서 샘플에 대해 테스트하며, 도구 공급업체가 기본 구성에 추가할 때까지 기다리지 않고 모든 처리 워크플로우에 배포할 수 있습니다.
누락된 Steuer-ID 감지를 발견한 DPA 감사 결과는 오후에 걸쳐 진행된 사전 준수 검토에서 발견될 수 있었습니다.
출처: