Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유: EU 커버리지 격차
2026년 업데이트
Microsoft Presidio는 약 40개의 기본 엔터티 인식기와 함께 제공됩니다. 미국 배포에서는 충분합니다. SSN, 미국 여권, 운전면허증, 신용카드, 이메일을 커버합니다.
EU 배포의 경우 격차가 큽니다. GDPR은 모든 EU 개인정보를 적용 대상으로 합니다. 정보 주체의 국적에 관계없이 적용됩니다. EU 팀에는 Presidio가 기본으로 제공하지 않는 인식기가 필요합니다.
Presidio가 기본으로 포함하는 것
Presidio의 기본값은 네 그룹으로 나뉩니다.
미국 중심 ID:
- 미국 사회보장번호 (SSN)
- 미국 여권 번호
- 미국 운전면허번호
- 미국 은행 계좌 번호
- 미국 ITIN
- 미국 의료 면허 번호
범용 ID:
- 이메일 주소
- 전화번호
- IP 주소
- 신용카드 번호
- 암호화폐 지갑 주소
- URL
텍스트 엔터티 (NER 기반):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
제한적 국제 식별자:
- 영국 NHS 번호
- 영국 국민보험번호 (NINO)
- 일부 금융 식별자
총계: 약 40개 인식기.
EU 팀에 필요한 것
금융 ID
IBAN은 대부분의 EU 비즈니스 파일에 나타납니다. 결제, 인보이스, 급여에 등장합니다. IBAN은 ISO 13616을 따릅니다. Presidio에는 IBAN 인식기가 없습니다.
독일의 한 핀테크 기업을 예로 들어보겠습니다. 모든 결제 파일에 IBAN이 있습니다. IBAN 감지 없이는 신용카드 번호만 찾습니다. 주요 EU 결제 ID가 누락됩니다. 이는 GDPR 적용 대상의 핵심 데이터가 발견되지 않음을 의미합니다.
국가별 세금 ID
다음은 Presidio 기본값에 없습니다.
- 독일 Steueridentifikationsnummer: 11자리
- 프랑스 NIR: 확인 키가 있는 15자리
- 이탈리아 Codice Fiscale: 체크섬이 있는 16자리
- 스페인 NIF/NIE: 문자가 있는 9자리
- 네덜란드 BSN: elfproef 검증이 있는 9자리
EU 급여 팀은 여러 회원국의 파일을 처리합니다. 이것들 없이는 해당 기록에서 가장 민감한 ID를 놓칩니다.
국가별 건강 ID
영국 NHS 번호는 커버됩니다. 다음은 그렇지 않습니다.
- 프랑스 NIR (건강 ID이기도 함)
- 독일 Krankenkassennummer
- 이탈리아 Codice Fiscale (건강 ID이기도 함)
- 네덜란드 BSN (건강보험에 사용됨)
EU 의료 팀은 GDPR 수준의 데이터 보호를 위해 이것들이 필요합니다.
EU 운전면허증
EU 운전면허증은 지침 2006/126/EC에 따릅니다. 각 회원국마다 고유한 형식이 있습니다. 영숫자 구조가 국가별로 다릅니다. Presidio에는 미국 전용 운전면허 인식기만 있습니다. EU 운전면허 지원이 없습니다. EU 운전면허 데이터가 감지되지 않고 통과합니다.
VAT 번호
EU VAT 번호는 모든 B2B 거래에 나타납니다. 형식: 2자리 국가 코드와 8~12자리 숫자. Presidio에는 VAT 인식기가 없습니다. VAT 번호는 기업과 그 소유자와 연결됩니다. GDPR 하에서 개인정보입니다.
GDPR 의무에 대한 자세한 내용은 GDPR 컴플라이언스 리소스를 참조하세요.
사용자 정의 인식기의 비용
EU 팀이 이 격차를 발견하면 사용자 정의 인식기를 구축합니다. 실제로 상당한 시간이 걸립니다.
인식기당 소요 시간 (대략적 추산):
- 형식 조사: 1~2시간
- Python 클래스 작성: 2~4시간
- 정규식 및 유효성 검사 구축: 2~4시간
- 컨텍스트 단어 추가: 1~2시간
- 테스트 작성: 2~3시간
- 배포 및 확인: 1~2시간
인식기당 9~17시간입니다. 이것은 대략적인 추산일 뿐입니다.
예시: 독일 핀테크가 4개의 인식기가 필요합니다.
IBAN, Steuer-ID, EU 운전면허증, 독일 VAT.
- 4개 인식기 × 13시간 = 52시간의 작업
- 시간당 100유로: 약 5,200유로
이것은 초기 구축 비용만입니다. 형식은 시간이 지남에 따라 변경됩니다. 새로운 엣지 케이스가 발생합니다. Presidio API 업데이트가 작동을 중단시킬 수 있습니다. 각 변경마다 개발자가 검토하고 수정해야 합니다. 지속적인 작업이 연간 비용을 계속 증가시킵니다.
관리형 라이브러리
anonym.legal은 285개 이상의 엔터티 유형으로 Presidio를 확장합니다. 팀이 라이브러리를 최신 상태로 유지합니다. EU 식별자가 첫날부터 포함됩니다.
Presidio 기본값을 넘어서는 내용:
- 모든 EU 회원국 형식의 IBAN
- 회원국별 세금 ID: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL 등
- EU 국가별 건강 ID
- VAT 번호 (EU 형식)
- EU 운전면허 형식
- 유럽 여권 형식
- 지원되는 48개 언어의 엔터티 변형
독일이 세금 ID 형식을 업데이트하면, 업데이트가 서비스와 함께 배포됩니다. 팀에서 별도의 풀 리퀘스트가 필요 없습니다.
라이브러리에 없는 ID의 경우, 사용자 정의 엔터티 빌더로 패턴을 추가할 수 있습니다. Python 코드가 필요 없습니다.
업데이트와 감사 추적이 어떻게 작동하는지 보안 및 컴플라이언스 세부 정보를 참조하세요.
독일 핀테크 사례
독일 핀테크가 고객 파일에서 IBAN, BIC, Steuer-ID, Handelsregisternummer를 감지해야 합니다.
이 네 가지 유형에 대한 Presidio 기본 감지율: 0%.
기본 라이브러리에 없습니다. 낮은 정밀도가 아닙니다. 감지가 0건입니다. 도구가 부분적으로 놓치는 것이 아닙니다. 전혀 보지 못합니다.
비용 비교:
| 접근법 | 첫 해 비용 |
|---|---|
| 사용자 정의 인식기 (4개 × 13시간 × 100유로/시간) | ~5,200유로 + 지속 유지보수 |
| 관리형 엔터티 라이브러리 (Pro 플랜) | 연간 180유로, 네 가지 모두 포함 |
첫 해 격차는 약 29배입니다. 이후 매년 사용자 정의 유지보수 비용이 추가됩니다. 관리형 서비스 가격은 고정됩니다.
결론
Presidio의 기본값은 미국 사용 사례에 잘 맞습니다. GDPR 하의 EU 배포에는 부족합니다. 이 격차는 사용자 정의 인식기 작업 또는 관리형 서비스를 요구합니다.
GDPR 컴플라이언스가 필수이고 엔지니어링 시간이 부족한 EU 팀에게, 사전 구축된 EU 엔터티 라이브러리는 50시간 이상의 구축 프로젝트를 제거합니다. 첫날부터 파일을 처리할 수 있습니다. 사용자 정의 코드 없이.