글로벌 식별자 단편화 문제
45개국의 판매자가 있는 마켓플레이스 플랫폼은 판매자의 출신 국가에 따라 완전히 다른 온보딩 문서를 처리합니다. 브라질 판매자는 CPF( Cadastro de Pessoas Físicas)를 제출합니다 — 특정 가중치 알고리즘을 사용하여 계산된 두 개의 체크 자리가 있는 11자리 세금 ID입니다. 인도 판매자는 PAN(영구 계좌 번호)을 제공합니다 — 특정 위치 패턴에서 문자와 숫자를 결합한 10자리 알파벳 숫자 형식입니다. 독일 판매자는 Steuer-ID(11자리 Luhn 체크섬)를 제공합니다. 네덜란드 판매자는 BSN(Burger Service Nummer, 9자리 mod-11 검증)을 제공합니다.
각 형식은 길이, 구조 및 검증 알고리즘이 다릅니다. 하나의 형식에 대해 설계된 단일 정규 표현식은 다른 형식과 일치하지 않습니다. 일반적인 "10-12자리 숫자 문자열" 패턴은 가격, 수량, 날짜 및 참조 번호가 포함된 금융 문서에서 높은 허위 긍정 비율을 초래합니다.
준수 의무는 국가에 따라 구분되지 않습니다. GDPR은 EU 판매자의 데이터를 다룹니다. LGPD는 브라질 판매자의 데이터를 다룹니다. DPDP 법은 인도 판매자의 데이터를 다룹니다. 각 규제 프레임워크는 해당 프레임워크에 의해 보호되는 개인 데이터의 적절한 보호를 요구합니다 — 그리고 "적절한"은 식별자가 감지되고 보호되었음을 의미하며, 단순히 감지 시도가 이루어졌다는 것을 의미하지 않습니다.
40개 식별자 격차
대부분의 기업 PII 탐지 도구는 약 40개의 일반 식별자 유형에 대한 인식기를 제공합니다. 여기에는 일반적으로 다음이 포함됩니다:
- 미국 사회 보장 번호
- 미국 여권 형식
- 미국 운전 면허증(주별)
- 일반 신용 카드 형식(Luhn 검증)
- 이메일 주소
- 전화번호(NANP 형식)
- IP 주소
이 수준의 커버리지를 가진 도구는 영어를 사용하는 북미의 준수 요구 사항을 상당히 잘 충족합니다. 그러나 글로벌하게 운영되는 조직의 식별자 환경을 다루지 않습니다.
40개의 식별자와 글로벌 준수 간의 격차는 상당합니다:
남미 식별자: 브라질 CPF(개인) 및 CNPJ(법인)는 브라질의 세무 당국 형식에 특정한 체크섬 검증이 필요합니다. 아르헨티나 CUIT는 다른 가중치 합 알고리즘을 따릅니다. 콜롬비아 NIT는 또 다른 검증 방법을 사용합니다.
아시아 식별자: 인도 PAN, Aadhaar(12자리 생체 ID), 인도 GSTIN(GST 식별자), 유권자 ID는 각각 고유한 형식을 가지고 있습니다. 일본 My Number(12자리 국가 ID), 한국 주민등록번호, 중국 국가 ID(체크 자리가 있는 18자리)는 모두 별도의 인식기가 필요합니다.
EU 식별자: 일반적으로 인식되는 형식 외에도 포괄적인 EU 커버리지는 모든 27개 EU 회원국의 IBAN 형식(각각 국가별 길이 및 형식)과 각 회원국의 국가 ID 형식(독일 Steuer-ID, 프랑스 NIR, 네덜란드 BSN, 폴란드 PESEL, 스웨덴 Personnummer 등)을 요구합니다.
260개 이상의 엔티티 유형이 실제로 다루는 것
260개 이상의 유형을 포함하는 포괄적인 엔티티 라이브러리는 다음을 포함합니다:
- 모든 27개 EU 회원국의 국가 식별자(덜 다루어지는 것 포함: 슬로베니아 EMŠO, 크로아티아 OIB, 불가리아 EGN, 루마니아 CNP)
- 모든 EU IBAN 형식(27개 국가별 형식 및 검증 포함)
- 주요 남미 식별자(브라질 CPF/CNPJ, 아르헨티나 CUIT, 콜롬비아 NIT)
- 주요 아시아 식별자(인도 PAN/Aadhaar/GSTIN, 일본 My Number, 한국 RRN)
- 브렉시트 이후 영국 특정 식별자(영국 NI 번호, NHS 번호, NINO 변형)
- 관할권 전반의 의료 식별자(미국 NPI, DEA 번호, NHS 번호, 병원 MRN 형식)
- 금융 식별자(SWIFT 코드, BIC 형식, 다양한 계좌 번호 패턴)
45개국의 판매자를 대상으로 하는 런던 기반 마켓플레이스의 경우, 260개 이상의 엔티티 커버리지는 단일 배포가 모든 관할권에서 판매자 개인 데이터의 식별 및 보호를 처리함을 의미합니다 — 별도의 지역 도구, 별도의 처리 파이프라인 또는 40개의 인식기가 놓치는 국가 식별자 유형에 대한 수동 보강이 필요하지 않습니다.
준수 태세는 "우리는 일반 식별자를 보호합니다"에서 "우리는 실제 데이터에 존재하는 식별자를 보호합니다"로 변경됩니다. 글로벌 운영의 경우, 이 구분은 부분 준수와 진정한 보호 간의 차이를 의미합니다.
출처: