블로그로 돌아가기기술

APAC 데이터 프라이버시: 왜 귀하의 영어 PII 도구가 태국, 인도네시아...

싱가포르 핀테크가 12개 APAC 언어로 매달 500,000개의 지원 채팅을 처리하면서 영어 전용 도구가 비영어 상호작용의 60%에서 PII를 놓쳤음을 발견했습니다. PDPA는 분석 전에 익명화를 요구합니다.

March 24, 20267 분 읽기
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

BPO 언어 문제

비즈니스 프로세스 아웃소싱(BPO) 회사는 APAC 고객 지원의 다국어 현실에서 운영됩니다. 태국의 고객이 태국어로 지원에 연락할 때, 인도네시아 고객이 인도네시아어로 글을 쓸 때, 베트남 고객이 베트남어를 사용할 때 — 채팅 로그는 해당 언어로 생성됩니다. 그리고 이러한 채팅 로그가 품질 보증, 교육 또는 규정 준수 감사에 대해 분석될 때, 그들이 포함하고 있는 PII는 해당 언어로 되어 있습니다.

영어 중심의 PII 탐지 도구는 이 환경을 위해 설계되지 않았습니다. 그들의 엔티티 인식기는 영어 텍스트에서 훈련되었습니다. 그들의 이름 탐지 모델은 영어 이름 패턴을 학습했습니다. 그들의 주소 탐지는 영어 주소 형식에 대해 훈련되었습니다.

태국어, 인도네시아어 또는 베트남어 채팅 로그에 적용될 경우, 이러한 도구는 언어 특정 PII에 대해 거의 제로에 가까운 탐지율을 생성합니다. 태국 고객의 이름이 태국어 스크립트로 작성되면, 영어 텍스트에서 이름을 학습한 모델에는 보이지 않습니다. 인도네시아 주소가 인도네시아 주소 규칙을 따르더라도, 영어로 훈련된 주소 인식기가 기대하는 패턴과 일치하지 않습니다.

APAC의 규정 준수 이해관계

APAC 전역의 데이터 보호 규정은 고객 PII를 처리하는 조직에 대한 규정 준수 의무를 생성합니다:

태국 PDPA (개인 데이터 보호법): 2022년부터 시행된 태국의 PDPA는 태국 거주자의 개인 데이터를 처리하는 조직에 대해 데이터 최소화, 동의 및 보안 조치에 대한 요구 사항을 부과합니다. 태국 이름, 주소 및 연락처 정보를 포함하는 고객 지원 로그는 PDPA 범위에 포함됩니다.

인도네시아 PDPLaw: 인도네시아의 포괄적인 개인 데이터 보호법은 인도네시아 거주자의 개인 데이터를 처리하는 조직에 대한 의무를 생성하며, 적절한 보안 조치에 대한 요구 사항을 포함합니다.

베트남 PDPD (개인 데이터 보호 법령): 베트남의 2023 개인 데이터 보호 프레임워크는 베트남에서 운영되거나 베트남을 목표로 하는 조직에 의해 베트남 거주자의 개인 데이터 처리에 적용됩니다.

BPO 회사와 APAC 고객에게 서비스를 제공하는 글로벌 조직에게 이러한 규정은 동일한 기본 요구 사항을 생성합니다: 고객 데이터의 PII는 식별되고 적절하게 보호되어야 합니다. 이 요구 사항은 고객이 사용한 언어와 관계없이 적용됩니다.

500,000 채팅 볼륨 문제

12개 APAC 언어로 매달 500,000개의 고객 지원 채팅 로그를 처리하는 싱가포르 기반 핀테크는 특정 운영상의 도전에 직면해 있습니다: 그들의 규정 준수 의무는 모든 500,000개의 상호작용을 포함하지만, 그들의 PII 탐지 도구는 영어 언어 하위 집합만 정확하게 커버합니다.

상호작용의 30%가 영어이고 도구가 영어 PII에 대해 90% 탐지 정확도를 달성하면, 도구는 135,000개의 상호작용을 성공적으로 보호합니다. 나머지 365,000개의 비영어 상호작용 — 태국어, 인도네시아어, 베트남어, 필리핀어, 말레이어, 한국어, 일본어 및 기타 언어 고객 데이터를 나타냄 — 는 최소한의 PII 탐지로 통과합니다.

규정 준수 태세: 월간 상호작용의 73%가 적절하게 보호되지 않으며, 규정 준수 의무는 모든 500,000개를 포함합니다.

합리적인 인간 검토 비율로 365,000개의 비영어 상호작용을 수동으로 검토하는 것은 운영적으로 실현 가능하지 않습니다. 조직은 영어뿐만 아니라 실제 언어 혼합을 커버하는 자동화된 PII 탐지가 필요합니다.

교차 언어 아키텍처가 제공하는 것

XLM-RoBERTa — 100개 이상의 언어의 텍스트로 훈련된 교차 언어 변환기 모델 — 는 언어 경계를 초월하는 엔티티 인식을 제공합니다. 다국어 코퍼스에서 훈련된 모델은 이름, 위치 및 조직이 언어 간에 구조적 패턴을 공유한다는 것을 학습합니다, 심지어 표면 형태가 완전히 다를 때에도.

APAC 언어에 대해:

  • 인도네시아어 (ID): XLM-RoBERTa는 인도네시아어로 된 인명, 조직 및 위치에 대한 엔티티 인식을 제공합니다.
  • 태국어 (TH): 관련 언어 계열에서의 교차 언어 전이는 기본 PII 탐지를 제공합니다.
  • 베트남어 (VI): 음조 언어 인식을 통한 엔티티 인식.
  • 필리핀어 (TL): 타갈로그어 고객 상호작용에 대한 커버리지.

전용 모델이 있는 언어에 대해 언어 특정 Stanza 모델과 결합하면, 교차 언어 접근 방식은 전체 APAC 언어 혼합에 대한 자동화된 PII 탐지를 확장합니다 — 영어 하위 집합뿐만 아니라.

BPO의 경우, 규정 준수의 의미는 측정 가능합니다: 월간 상호작용의 27%를 보호하는 대신, 포괄적인 다국어 탐지가 전체 볼륨을 커버합니다. 수동 검토 부담은 365,000개의 상호작용에서 품질 관리 샘플로 줄어듭니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.