Presidio가 놓치는 것: GDPR 준수를 위한 220개 이상의 필수 엔터티 유형
Microsoft Presidio는 약 40개의 기본 엔터티 인식기를 제공합니다. 미국 중심의 문서를 처리하는 미국 기반 배포의 경우, 이는 필수 범주인 SSN, 미국 여권, 미국 운전 면허증, 신용 카드, 이메일 주소, 전화번호 및 개인 이름을 포함합니다.
EU 배포의 경우, 커버리지 격차가 상당합니다. GDPR은 국적에 관계없이 모든 EU 개인 데이터에 적용됩니다. 자국민의 데이터를 처리하는 EU 조직은 Presidio가 기본적으로 제공하지 않는 인식기가 필요합니다.
기본 Presidio 엔터티 라이브러리
Presidio의 기본 인식기에는 다음이 포함됩니다:
미국 중심 식별자:
- 미국 사회 보장 번호 (SSN)
- 미국 여권 번호
- 미국 운전 면허 번호 (주별 형식 다수)
- 미국 은행 계좌 번호
- 미국 ITIN (개인 납세자 식별 번호)
- 미국 의료 면허 번호
보편적 식별자:
- 이메일 주소
- 전화번호 (미국 중심 형식 우선)
- IP 주소
- 신용 카드 번호 (룬 알고리즘)
- 암호화 지갑 주소
- URL
일반 텍스트 엔터티:
- PERSON (NER 기반)
- LOCATION (NER 기반)
- ORGANIZATION (NER 기반)
- DATE_TIME (NER 기반)
제한된 국제 커버리지:
- 영국 NHS 번호
- 영국 국민 보험 번호 (NINO)
- 금융 엔터티 식별자 (일부)
총: 약 40개의 인식기
EU 조직이 실제로 필요한 것
재무 식별자: IBAN (국제 은행 계좌 번호)은 지불, 송금, 청구서 발행 및 급여와 관련된 거의 모든 EU 비즈니스 문서에 나타납니다. IBAN 형식은 국가마다 다르지만 국제 표준 (ISO 13616)을 따릅니다. Presidio는 기본 IBAN 인식기가 없습니다.
독일 핀테크 회사는 고객 결제 기록을 처리하며 모든 거래 문서에서 IBAN 번호를 처리합니다. IBAN 인식이 없으면 이러한 문서는 신용 카드 감지가 활성화된 상태에서 처리되지만 IBAN 필드 (주요 EU 결제 식별자)는 완전히 무시됩니다.
국가 세금 식별자:
- 독일 Steueridentifikationsnummer: 11자리 숫자
- 프랑스 NIR (Numéro d'Inscription au Répertoire): 13자리 알파벳 숫자
- 이탈리아 Codice Fiscale: 구조적 검증이 있는 16자리 알파벳 숫자
- 스페인 NIF/NIE: 접미사/접두사가 있는 9자리
- 네덜란드 BSN: 11자리 검증이 있는 9자리
이 중 어느 것도 Presidio의 기본 엔터티 라이브러리에 없습니다. 여러 회원국의 직원 문서를 처리하는 EU 급여 프로세서는 가장 민감한 재무 식별자에 대해 사실상 눈이 멀어 있습니다.
국가 건강 식별자:
- 영국 NHS 번호: 10자리 모듈러스-11 체크
- 프랑스 Numéro de Sécurité Sociale (NIR): 건강 ID로도 사용됨
- 독일 Krankenkassennummer: 알파벳 숫자, 보험사 특정
- 이탈리아 Codice Fiscale: 건강 ID로도 사용됨
- 네덜란드 BSN: 건강 보험에도 사용됨
EU 전역의 의료 기관은 HIPAA에 준하는 건강 데이터 보호를 위해 이러한 식별자가 필요합니다. Presidio는 영국 NHS 번호를 제공하지만 대륙 유럽의 건강 ID는 놓치고 있습니다.
EU 운전 면허 형식: Presidio는 미국 운전 면허 인식기를 가지고 있지만 (주별 특정) EU 운전 면허 형식은 2006/126/EC 지침에 따라 표준화되어 있지만, 알파벳 숫자 구조는 회원국마다 다릅니다. Presidio의 기본 설정에는 EU 운전 면허 인식기가 없습니다.
부가가치세 등록 번호: EU VAT 번호는 모든 비즈니스 간 거래에 나타납니다. 형식: 국가 코드 (2글자) + 8-12자리 알파벳 숫자. Presidio는 VAT 번호 인식기가 없습니다. EU 기업이 청구서, 계약서 및 상업 문서를 공유할 때 VAT 번호는 등록된 비즈니스 엔터티 및 그 이사와 연결되는 식별자입니다.
EU 여권 형식: Presidio에서는 미국 여권 인식이 가능하지만, EU 여권 형식 (특히 기계 판독 영역 형식)은 포함되지 않습니다.
맞춤 인식기 개발의 엔지니어링 비용
EU 조직이 Presidio를 배포하고 엔터티 커버리지 격차를 발견하면, 일반적으로 맞춤 인식기 개발로 대응합니다. 비용:
인식기당 개발 시간:
- 식별자 형식 조사: 1-2시간
- PatternRecognizer Python 클래스 작성: 2-4시간
- 검증 로직이 포함된 정규 표현식 구현: 2-4시간
- 정밀도 향상을 위한 컨텍스트 단어 구성: 1-2시간
- 테스트 작성: 2-3시간
- 배포에서 통합 및 테스트: 1-2시간
인식기당: 9-17시간.
IBAN + Steuer-ID + EU 운전 면허 + 독일 VAT + IBAN이 필요한 독일 핀테크의 경우:
- 4개의 맞춤 인식기 × 평균 13시간 = 52 엔지니어링 시간
- 시간당 €100: 맞춤 인식기 개발에 €5,200
형식이 변경되고 새로운 테스트 사례가 발생하며 Presidio API 업데이트로 인해 인식기 수정이 필요할 때 지속적인 유지 관리 비용이 추가됩니다.
Presidio 위에 EU GDPR 커버리지를 위한 총 비용: €5,200+ 초기 + 지속적인 유지 관리
대안: 관리형 엔터티 라이브러리
anonym.legal은 Presidio 기반을 확장하여 개발 팀이 유지 관리하는 285개 이상의 엔터티 유형을 제공합니다 — Presidio의 기본 설정에서 놓친 EU 특정 식별자를 포함하여:
Presidio 기본 설정을 넘어선 커버리지 하이라이트:
- IBAN (모든 EU 회원국 형식)
- EU 회원국 세금 식별자 (Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL 등 포함)
- EU 국가 건강 식별자
- VAT 번호 (EU 형식)
- EU 운전 면허 형식
- 유럽 여권 형식
- 지원되는 모든 48개 언어 엔터티 변형
유지 관리: 엔터티 라이브러리 업데이트는 관리 서비스의 일환으로 푸시됩니다. 독일이 새로운 세금 식별자 형식을 도입할 때, 사용자는 풀 리퀘스트를 제출하지 않고도 인식기를 받습니다.
맞춤 확장: 라이브러리에 없는 조직 특정 식별자의 경우, 맞춤 엔터티 빌더를 사용하여 Python 코드 없이 패턴을 추가할 수 있습니다.
독일 핀테크 사례
독일 핀테크는 고객 문서에서 IBAN, BIC, 독일 세금 ID (Steuer-ID) 및 독일 상업 등록 번호 (Handelsregisternummer)를 감지해야 합니다.
이 4개 엔터티 유형에 대한 Presidio 기본 감지율: 0%
정확도가 낮은 것도 아니고, 잘못된 긍정도 아니며 — 감지가 전혀 없습니다. 4개 엔터티 유형 모두 Presidio의 기본 엔터티 라이브러리에 나타나지 않습니다.
맞춤 인식기 작성: 4개의 인식기 × 13시간 = 52시간 = 엔지니어링 요율로 €5,200.
모든 4개가 포함된 관리형 엔터티 라이브러리 사용: €180/년 (전문 계획).
이 독일 재무 식별자의 GDPR 준수 감지를 달성하는 비용:
- Presidio 경로: €5,200 엔지니어링 + Presidio 운영 비용
- 관리 서비스 경로: €180/년, 모든 4개를 기본적으로 감지
첫 해의 격차는 28배입니다. 운영하는 매년 맞춤 인식기 유지 관리에 대한 엔지니어링 시간이 Presidio 비용에 추가되는 반면, 관리 서비스 비용은 평탄하게 유지됩니다.
결론
Presidio의 약 40개의 기본 인식기는 미국 중심의 사용 사례에 잘 맞습니다. 회원국별 식별자에 대한 GDPR 준수가 필요한 EU 배포의 경우, 기본 제공 커버리지가 불충분합니다. 격차는 맞춤 인식기 개발 (비용이 많이 들고 시간이 소요됨) 또는 구독의 일환으로 EU 엔터티 커버리지를 유지 관리하는 관리 서비스로 채워집니다.
준수가 필수적이고 엔지니어링 자원이 제한된 EU 조직의 경우, 관리 서비스의 미리 구축된 EU 엔터티 라이브러리는 첫 문서 익명화 전에 50시간 이상의 맞춤 개발 프로젝트를 없애줍니다.
출처: