단일 언어 도구를 무시하는 문서들
스위스 제약 회사의 고용 계약서는 한 언어로 작성되지 않습니다. 스위스에는 네 개의 공식 언어가 있습니다. 스위스 조직에서 생성된 문서는 일반적으로 주요 계약 본문에는 독일어, 특정 규제 조항에는 프랑스어, 국제 표준 설정 섹션에는 영어를 혼합하여 사용합니다 — 때로는 단일 문단 내에서도 말이죠.
벨기에 회사의 이사회 회의록에는 네덜란드어 보고서와 프랑스어 공식 결의안, 국제 투자자를 위한 영어 요약 섹션이 포함되어 있습니다. 다국적 기업의 데이터 처리 계약서는 영어 기술 사양, 독일어 데이터 주체 권리 조항, 프랑스어 DPA 연락처 정보를 포함하고 있습니다.
이러한 문서는 드문 것이 아닙니다. 이들은 다국적 조직이 다국어 시장에서 운영할 때의 표준 출력물입니다. 그리고 단일 언어 PII 탐지 도구는 이들 문서에서 체계적으로 실패합니다.
45% 높은 누락 비율
혼합 언어 문서에 대한 단일 언어와 다국어 NER 접근 방식을 비교한 연구에서는 혼합 언어 문서가 단일 언어 NER 도구에서 PII 누락 비율을 45% 높인다는 결과를 발견했습니다. 이는 순수 단일 언어 문서에 대한 성능과 비교한 것입니다.
이 격차의 원인은 아키텍처에 있습니다: 독일어 텍스트로 훈련된 단일 언어 NER 모델은 독일어 이름 패턴, 독일어 조직 이름 규칙 및 독일어 주소 구조를 학습합니다. 그 모델이 주로 독일어 문서 내에서 프랑스어 섹션을 만날 때, 그것은 훈련 분포 외부에서 작동하고 있습니다. 해당 섹션의 프랑스어 인명, 프랑스어 주소 및 프랑스어 조직 식별자는 탐지 정확도가 감소하게 됩니다 — 이는 모델이 잘못 훈련되었기 때문이 아니라, 해당 섹션에 대해 잘못된 언어로 훈련되었기 때문입니다.
추가 발견: EU 기업의 72%가 동시에 3개 이상의 언어로 문서를 처리합니다 (EDPB 2024), 그리고 다국어 HR 문서는 단일 언어 문서보다 페이지당 PII가 67% 더 많습니다 (Gartner 2024). 더 높은 PII 밀도와 높은 누락 비율의 조합은 다국어 HR, 법률 및 상업 문서를 처리하는 조직의 준수 격차를 악화시킵니다.
언어 경계가 탐지 실패를 초래하는 방법
실패는 균일하지 않습니다. 언어 경계 — 한 섹션이 다른 언어로 전환되는 지점 — 에서의 PII는 특히 취약합니다.
고용 계약서에는 다음과 같은 조항이 포함될 수 있습니다: "Der Arbeitnehmer (Employee: Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu..." — 독일어 문장 구조와 프랑스어 이름 및 생년월일을 혼합합니다. 독일어 NER 모델은 독일어 패턴 이름을 기대하는 위치에서 프랑스어 이름을 만나게 되어 이를 올바르게 분류하지 못할 수 있습니다. 프랑스어 모델은 독일어에서 맥락 단어를 보고 주변 문서 구조를 신뢰성 있게 식별할 수 없습니다.
Gartner 2024의 관찰에 따르면 다국어 HR 문서는 단일 언어 문서보다 페이지당 PII가 67% 더 많아 이 경계 탐지 실패는 특히 중대한 결과를 초래합니다: HR 문서는 PII 밀도가 가장 높은 문서 유형 중 하나이며, 다국어 조직에서 혼합 언어 형태로 생성됩니다.
교차 언어 변환기 솔루션
XLM-RoBERTa (Cross-lingual Language Model - Roberta)는 이 문제에 대한 다른 아키텍처 접근 방식을 나타냅니다. 각 언어에 대해 별도의 모델을 훈련하는 대신, XLM-RoBERTa는 100개 언어의 텍스트를 동시에 훈련합니다. 이 모델은 개체 인식 작업이 언어 간에 패턴을 공유한다는 것을 학습합니다 — 사람 이름과 주변 맥락 단어 간의 구조적 관계는 특정 단어가 다르더라도 독일어, 프랑스어 및 영어에서 유사합니다.
혼합 언어 문서의 경우, XLM-RoBERTa의 교차 언어 아키텍처는 모델이 문서 경계에서 언어 모델 간에 "전환"할 필요가 없음을 의미합니다. 이는 텍스트를 연속적인 시퀀스로 처리하며, 언어 전환에 관계없이 동일한 개체 인식 기능을 적용합니다.
이는 완전한 솔루션은 아닙니다 — 독일어, 프랑스어 및 기타 언어 훈련 데이터에 대한 언어별 미세 조정은 각 언어에 대해 추가적인 정확성을 제공합니다. 그러나 교차 언어 기준선은 단일 언어 모델이 일관되게 처리하지 못하는 언어 경계를 통해 신뢰할 수 있는 탐지를 제공합니다.
스위스, 벨기에 및 기타 다국적 조직의 문서가 정기적으로 언어 경계를 넘는 경우, 단일 언어 및 교차 언어 NER 간의 아키텍처적 차이는 준수 결과로 직접 이어집니다: 단일 언어 도구에서 언어 경계에서 놓친 개체는 교차 언어 아키텍처에서 탐지됩니다.
출처: