BPO语言问题
业务流程外包公司在亚太地区客户支持的多语言现实中运营。当泰国客户用泰语联系支持时,当印度尼西亚客户用印尼语书写时,当越南客户使用越南语时——聊天记录是用该语言创建的。当这些聊天记录被分析以进行质量保证、培训或合规审计时,它们所包含的PII也是用该语言的。
以英语为中心的PII检测工具并不是为这种环境而构建的。它们的实体识别器是基于英语文本进行训练的。它们的姓名检测模型学习了英语姓名模式。它们的地址检测是基于英语地址格式进行训练的。
应用于泰语、印尼语或越南语聊天记录时,这些工具对特定语言的PII的检测率几乎为零。用泰文书写的泰国客户姓名对于一个从英语文本中学习姓名的模型来说是不可见的。遵循印尼地址惯例的印尼地址与英语训练的地址识别器所期望的模式不匹配。
亚太地区的合规风险
亚太地区的数据保护法规为处理客户PII的组织创造了合规义务:
泰国PDPA(个人数据保护法): 自2022年生效,泰国的PDPA对处理泰国居民个人数据的组织施加了数据最小化、同意和安全措施的要求。包含泰国姓名、地址和联系信息的客户支持日志属于PDPA的范围。
印度尼西亚PDPLaw: 印度尼西亚的全面个人数据保护法对处理印度尼西亚居民个人数据的组织创造了义务,包括适当安全措施的要求。
越南PDPD(个人数据保护法令): 越南2023年的个人数据保护框架涵盖了在越南运营或针对越南的组织处理越南居民个人数据的情况。
对于服务亚太地区客户的BPO公司和全球组织,这些法规创造了相同的基本要求:客户数据中的PII必须被识别并适当保护。该要求适用于客户使用的任何语言。
50万聊天量问题
一家总部位于新加坡的金融科技公司每月处理50万条客户支持聊天记录,覆盖12种亚太地区语言,面临一个特定的运营挑战:他们的合规义务涵盖所有50万次互动,但他们的PII检测工具仅准确覆盖英语语言子集。
如果30%的互动是用英语进行的,而该工具对英语PII的检测准确率为90%,则该工具成功保护了135,000次互动。剩余的365,000次非英语互动——代表泰语、印尼语、越南语、菲律宾语、马来语、韩语、日语和其他语言的客户数据——在PII检测中几乎没有保护。
合规状态:73%的每月互动没有得到充分保护,尽管合规义务覆盖所有50万次互动。
以任何合理的人类审查速率手动审查365,000次非英语互动在操作上是不可行的。该组织需要覆盖其实际语言组合的自动化PII检测,而不仅仅是英语。
跨语言架构提供的内容
XLM-RoBERTa——一种在100多种语言文本上训练的跨语言变换模型——提供了跨语言边界的实体识别。一个在多语言语料库上训练的模型学习到姓名、地点和组织在语言之间共享结构模式,即使表面形式完全不同。
对于亚太地区语言:
- 印尼语(ID): XLM-RoBERTa提供对印尼语中人名、组织和地点的实体识别
- 泰语(TH): 从相关语言家族的跨语言迁移提供基础PII检测
- 越南语(VI): 具有声调语言意识的实体识别
- 菲律宾语(TL): 对塔加洛语客户互动的覆盖
结合在有专用模型的语言中使用的特定语言Stanza模型,跨语言方法将自动化PII检测扩展到完整的亚太地区语言组合——而不仅仅是英语子集。
对于BPO而言,合规的影响是可衡量的:而不是保护每月互动的27%,全面的多语言检测覆盖了全部量。手动审查负担从365,000次互动减少到质量控制样本。
来源: