KYC의 상충하는 규정 준수 요구 사항
고객 알기(KYC) 준수는 핀테크 운영에서 특정한 긴장을 생성합니다: 규제 기관은 철저한 신원 확인을 요구하며 — 개인 문서를 수집하고 검증하는 — 데이터 보호 규정은 수집된 개인 데이터를 최소화하고 보호할 것을 요구합니다.
새로운 계좌 신청자를 위한 KYC를 완료하는 디지털 은행은 신원 문서(국가 신분증, 여권, 운전 면허증), 주소 증명 및 재무 검증 문서를 수집합니다. 이러한 문서에는 GDPR, AML 규정 및 은행 감독 기관이 가장 엄격한 데이터 보호 조치를 요구하는 개인 데이터가 고농도로 포함되어 있습니다.
수집된 데이터가 분석에 사용되거나 사기 탐지 시스템과 공유되거나 ML 모델 교육을 위해 처리될 때, GDPR의 데이터 최소화 및 목적 제한 원칙은 개인 데이터가 보조 프로세스에서 사용되기 전에 익명화되거나 가명화되어야 함을 요구합니다.
2일 지연 문제
15개 유럽 국가에서 매일 5,000개의 KYC 신청서를 처리하는 디지털 뱅킹 플랫폼은 PII 탐지 단계에서 특정한 운영 문제에 직면했습니다: 자동 탐지 시스템의 잘못된 긍정 비율이 검토 대기열을 생성하여 2일의 지연을 초래했습니다.
지연의 원인: 그들의 ML 기반 PII 탐지 도구는 KYC 문서에서 비-PII 텍스트의 약 8%를 잠재적인 개인 데이터로 표시하고 있었습니다. 하루에 5,000개의 신청서가 제출되고, 각 신청서에는 여러 문서가 포함되어 수십 페이지에 달하므로, 잘못된 긍정의 양은 준수 팀이 같은 영업일 내에 검토할 수 있는 양을 초과했습니다.
잘못된 긍정은 체계적이고 예측 가능했습니다:
- 주소 문서에서 회사 이름이 개인 이름으로 표시됨 (ML 모델의 이름 인식기가 고유 명사를 혼동함)
- 참조 번호와 신청 코드가 잠재적인 ID 번호로 표시됨 (체크섬 검증 없이 숫자 패턴 매칭)
- "Chase"와 같은 일반적인 이름이 기관 이름에서 개인 이름 PII로 표시됨
각 잘못된 긍정은 확인하거나 기각하기 위해 인간의 검토가 필요했습니다. 5,000개의 신청서에서 8%의 잘못된 긍정 비율은 자동화할 수 없는 수천 개의 일일 검토 작업으로 이어졌습니다.
ACL 연구가 보여주는 것
PII 탐지를 위한 다국어 NLP 모델을 평가한 ACL 2024 연구에 따르면 다국어 NLP 모델의 5%만이 모든 24개 EU 언어에서 비영어 PII 탐지에 대해 85% 이상의 F1 점수를 달성합니다.
F1 점수는 정밀도와 재현율을 결합합니다 — 높은 재현율을 가진 모델이지만 낮은 정밀도(많은 잘못된 긍정)를 가진 모델은 점수가 낮고, 높은 정밀도를 가진 모델이지만 낮은 재현율(많은 잘못된 부정)을 가진 모델도 점수가 낮습니다. 모든 24개 EU 언어에서 85% F1에 도달하지 못하는 95%의 실패율은 전체 EU 언어 세트에서 정확하고 포괄적인 모델을 구축하는 어려움을 반영합니다.
대조적으로, XLM-RoBERTa는 PII 탐지 작업에 대해 91.4%의 교차 언어 F1을 달성합니다, HuggingFace 2024 벤치마킹에 따르면. 91.4%와 다국어 NLP 모델의 중앙 성능 간의 격차는 많은 핀테크 조직이 KYC 워크플로에 기존의 다국어 탐지를 적용할 때 운영 문제에 직면하는 이유를 설명합니다.
고용량 KYC를 위한 하이브리드 솔루션
여러 EU 관할권에서 높은 양의 신원 문서를 처리하는 KYC 운영의 경우, 잘못된 긍정 문제는 아키텍처 선택을 통해 해결할 수 있습니다:
체크섬 검증이 있는 구조화된 식별자 정규 표현식: 국가 ID 번호(독일 Steuer-ID, 네덜란드 BSN, 폴란드 PESEL 등)는 결정론적 검증 알고리즘을 가지고 있습니다. 형식 + 체크섬 검증을 기반으로 한 탐지는 이러한 식별자에 대해 거의 제로에 가까운 잘못된 긍정 비율을 생성합니다 — 국가 ID 체크섬 알고리즘을 통과하지 못하는 참조 번호는 숫자 길이에 관계없이 국가 ID가 아닙니다.
이름 및 자유 텍스트 PII에 대한 맥락 인식 NLP: 신원 문서의 개인 이름은 예측 가능한 맥락(예: "이름:", "성:", 특정 양식 필드)에서 나타납니다. NLP 탐지를 위한 맥락 단어 요구 사항은 비이름 맥락(기관 이름, 참조 레이블)에서 나타나는 이름 유사 문자열의 잘못된 긍정을 줄입니다.
문서 유형별 임계값 구성: KYC 문서는 고객 지원 이메일이나 임상 노트와 다른 PII 분포를 가지고 있습니다. 문서 유형별로 탐지 임계값을 별도로 구성하면 — 고용량 KYC 처리에 대한 높은 정밀도, 임상 비식별화에 대한 높은 재현율 — 운영 요구 사항에 맞게 조정할 수 있습니다.
지연 문제는 PII 자동화의 비용이 아닙니다. 그것은 고용량 다국어 KYC의 운영 요구 사항에 맞게 구성되지 않은 도구를 사용하는 비용입니다.
출처: