返回博客GDPR 与合规

一款工具,45个国家:为什么260+实体类型是全球PII合规的新基准

巴西的CPF有校验位。印度的PAN是10位字母数字。欧盟的IBAN因国家而异。全球电子商务平台无法承受单独的区域工具——全面覆盖的样子是怎样的。

March 25, 20267 分钟阅读
global PII compliance260 entity typesBrazilian CPFIndian PANIBAN formats

全球标识符碎片化问题

一个拥有45个国家卖家的市场平台处理的入驻文件因卖家的原籍国而完全不同。巴西卖家提交一个CPF(Cadastro de Pessoas Físicas)——一个11位的税号,带有两个使用特定加权算法计算的校验位。印度卖家提供一个PAN(永久账户号码)——一个10位字母数字格式,结合字母和数字以特定的位序模式。德国卖家提供一个Steuer-ID(11位,带有Luhn校验)。荷兰卖家提供一个BSN(Burger Service Nummer,9位,带有mod-11验证)。

每种格式的长度、结构和验证算法都不同。为一种格式设计的单一正则表达式无法匹配其他格式。通用的“10-12位数字字符串”模式在包含价格、数量、日期和参考号码的财务文件中产生了高昂的误报率。

合规义务不分国家。GDPR覆盖欧盟卖家的数据。LGPD覆盖巴西卖家的数据。DPDP法案覆盖印度卖家的数据。每个监管框架都要求对该框架所涵盖的个人数据进行适当保护——而“适当”意味着标识符被检测和保护,而不仅仅是进行了检测尝试。

40个标识符的缺口

大多数企业PII检测工具配备了大约40种常见标识符类型的识别器。这些通常包括:

  • 美国社会安全号码
  • 美国护照格式
  • 美国驾驶执照(州特定)
  • 通用信用卡格式(Luhn验证)
  • 电子邮件地址
  • 电话号码(NANP格式)
  • IP地址

在这个覆盖水平的工具在合理程度上满足了讲英语的北美合规要求。它们并未覆盖在全球运营的组织的标识符景观。

40个标识符与全球合规之间的缺口是相当大的:

南美标识符: 巴西的CPF(个人)和CNPJ(公司)需要特定于巴西财政局格式的校验和验证。阿根廷的CUIT遵循不同的加权和算法。哥伦比亚的NIT使用另一种验证方法。

亚洲标识符: 印度的PAN、Aadhaar(12位生物识别ID)、印度的GSTIN(GST识别)和选民ID各有不同的格式。日本的My Number(12位国家ID)、韩国的居民注册号码和中国的国家ID(18位,带校验位)都需要单独的识别器。

欧盟标识符: 除了常见的格式,全面的欧盟覆盖需要所有27个欧盟成员国的IBAN格式(每个国家特定的长度和格式),以及每个成员国的国家ID格式(德国的Steuer-ID、法国的NIR、荷兰的BSN、波兰的PESEL、瑞典的Personnummer等)。

260+实体类型实际覆盖的内容

一个包含260+种类型的全面实体库覆盖:

  • 所有27个欧盟成员国的国家标识符(包括覆盖较少的:斯洛文尼亚的EMŠO、克罗地亚的OIB、保加利亚的EGN、罗马尼亚的CNP)
  • 所有欧盟的IBAN格式(27个国家特定格式,带验证)
  • 主要南美标识符(巴西CPF/CNPJ、阿根廷CUIT、哥伦比亚NIT)
  • 主要亚洲标识符(印度PAN/Aadhaar/GSTIN、日本My Number、韩国RRN)
  • 英国特定的脱欧后标识符(英国NI号码、NHS号码、NINO变体)
  • 跨管辖区的医疗标识符(美国NPI、DEA号码、NHS号码、医院MRN格式)
  • 财务标识符(SWIFT代码、BIC格式、各种账户号码模式)

对于一个服务于45个国家卖家的伦敦市场,260+实体覆盖意味着单一部署处理所有管辖区内卖家个人数据的识别和保护——无需单独的区域工具、单独的处理管道或手动补充40个识别器工具遗漏的国家标识符类型。

合规立场从“我们保护常见标识符”转变为“我们保护我们实际数据中存在的标识符。”对于全球运营而言,这一区别是部分合规与真正保护之间的差异。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。