以美国为中心的PII工具问题
大多数PII检测工具是在美国为美国数据格式构建的。社会安全号码——以AAA-BB-CCCC格式表示的9位数字,具有文档化的区域号码、组号码和序列号——是主要的设计目标。围绕SSN检测构建的工具能够可靠地检测SSN。它们也可能检测电话号码、电子邮件地址和美国驾驶执照格式。它们系统性地漏掉其他国家使用的标识符格式。
GDPR不承认以美国为中心的合规豁免。德国Steuer-ID(Steuerliche Identifikationsnummer)是由联邦税务局(Bundeszentralamt für Steuern)发放的11位税务识别号码,具有特定的校验算法,并通过校验位进行验证。它像SSN识别美国人一样,个人化地识别德国居民。GDPR第4条将个人数据定义为“与已识别或可识别的自然人相关的任何信息”——无论您的PII工具是否知道格式,Steuer-ID在GDPR下都是个人数据。
GDPR对仅为美国格式配置的工具处理欧盟居民数据的系统中,针对特定欧盟国家的PII暴露已发出罚款。合规差距不是理论上的——它已经产生了执法行动。
欧洲标识符格局
欧洲标识符覆盖差距的规模:
德国: Steuer-ID(11位,校验和),Sozialversicherungsnummer(12位,结构格式),Reisepass(具有特定发证机构代码的10位护照)
法国: NIR/Numero de Securite Sociale(15位编码性别[1]、出生年份[2]、出生月份[2]、部门[2]、市镇[3]、登记号码[3]、校验键[2]),Carte Vitale(15位NIR的卡),SIRET(14位商业标识符),SIREN(9位)
瑞典: Personnummer(10位,格式YYMMDD-XXXX,最后两位数字标识较旧号码的出生县),Samordningsnummer(非居民的协调号码,类似格式加60天)
挪威: Fodselsnummer(11位,格式DDMMYYNNNKK,中间数字表示性别),D-nummer(协调号码,天数加40)
巴西: CPF(Cadastro de Pessoas Fisicas,11位,带有两个校验位),CNPJ(14位商业标识符)
印度: Aadhaar(12位生物识别身份,带有Verhoeff算法校验位),PAN(10位字母数字用于所得税)
阿联酋: Emirates ID(15位:784-出生年份-序列-校验)
处理12个国家员工工资数据的全球人力资源经理需要一个工具,能够在一次操作中检测所有12个国家的国家身份证格式——而无需配置12个单独的国家特定工具或维护12个单独的正则表达式库。
285+ 实体类型架构
285+实体类型库覆盖完整的欧盟成员国标识符集,主要的亚太地区标识符(Aadhaar、PAN、CPF、CNPJ、Emirates ID、泰国公民身份证)和美国标识符(SSN、EIN、按州划分的驾驶执照)在一个检测引擎中。该库随着国家特定格式的发展而维护和更新。
来源: