KYC的竞争合规要求
客户身份识别(KYC)合规在金融科技运营中产生了特定的紧张关系:监管机构要求彻底的身份验证——收集和验证个人文件——而数据保护法规要求在收集后最小化和保护这些个人数据。
一家数字银行在为新账户申请者完成KYC时,收集身份文件(国家身份证、护照、驾驶执照)、地址证明和财务验证文件。这些文件包含了GDPR、反洗钱法规和银行监管机构要求以最严格的数据保护措施处理的个人数据。
当收集的数据用于分析、与欺诈检测系统共享或用于机器学习模型训练时,GDPR的数据最小化和目的限制原则要求在二次处理之前对个人数据进行匿名化或伪匿名化。
2天的积压问题
一家数字银行平台在15个欧洲国家每天处理5,000份KYC申请,在其PII检测步骤中遇到了特定的操作问题:其自动检测系统中的误报率导致审查队列延长至2天的积压。
积压的来源:他们基于机器学习的PII检测工具将大约8%的非PII文本标记为潜在的个人数据。每天5,000份申请,每份申请包含多个文件,总计数十页,误报量超过了合规团队在同一工作日内能够审查的数量。
这些误报是系统性和可预测的:
- 地址文件中的公司名称被标记为人名(机器学习模型的名称识别器混淆了专有名词)
- 参考号码和申请代码被标记为潜在的身份证号码(数字模式匹配未进行校验和验证)
- "Chase"和类似的常见名字出现在机构名称中被标记为人名PII
每个误报都需要人工审查以确认或驳回。在5,000份申请中8%的误报率,相当于每天数千个无法自动化的审查任务。
ACL研究显示的内容
ACL 2024的研究评估了多语言NLP模型在PII检测中的表现,发现只有5%的多语言NLP模型在所有24种欧盟语言中实现了超过85%的F1分数,用于非英语PII检测。
F1分数结合了精准度和召回率——一个高召回率但低精准度(许多误报)的模型得分较低,像一个高精准度但低召回率(许多漏报)的模型一样。95%的失败率未能在所有24种欧盟语言中达到85%的F1分数,反映了构建一个在整个欧盟语言集上既准确又全面的模型的难度。
作为对比,XLM-RoBERTa在PII检测任务中实现了91.4%的跨语言F1,根据HuggingFace 2024的基准测试。91.4%与多语言NLP模型的中位数表现之间的差距解释了为什么许多金融科技组织在将现成的多语言检测应用于KYC工作流程时会遇到操作问题。
高容量KYC的混合解决方案
对于在多个欧盟司法管辖区处理大量身份文件的KYC操作,误报问题可以通过架构选择来解决:
带有校验和验证的结构化标识符正则表达式: 国家身份证号码(德国Steuer-ID、荷兰BSN、波兰PESEL等)具有确定性的验证算法。基于格式+校验和验证的检测为这些标识符产生接近零的误报率——未通过国家身份证校验和算法的参考号码无论其数字长度如何都不是国家身份证。
针对名称和自由文本PII的上下文感知NLP: 身份文件中的人名出现在可预测的上下文中("姓名:"、"姓氏:"、特定表单字段)。NLP检测的上下文词要求减少了在非名称上下文中出现的类似名称字符串的误报(机构名称、参考标签)。
按文档类型配置阈值: KYC文档的PII分布与客户支持电子邮件或临床记录不同。为文档类型单独配置检测阈值——高容量KYC处理的高精准度,临床去标识化的高召回率——允许根据操作要求进行调整,而不是接受一刀切的默认设置。
积压问题不是PII自动化的成本。它是使用未针对高容量多语言KYC的操作要求配置的工具的成本。
来源: