法国CNIL:数据保护机构对PII工具的技术要求
法国信息与自由委员会(CNIL)是欧盟要求最为严格的数据监管机构。多数欧盟监管机构仅制定原则性规则,CNIL则更进一步,发布称为「建议」(recommandations)的精确技术指南,为匿名化和AI数据使用设定了明确的技术标准。
2024年CNIL通知中频繁援引AI系统匿名化不足问题。该机构2023年共受理16,433件投诉,较2022年增加43%。
CNIL指南引领欧盟政策方向
CNIL的技术文件被欧盟其他数据保护机构广泛引用,其中两份指南最为重要。
**《匿名化实践指南》(2023年):**该指南覆盖k-匿名性、l-多样性和差分隐私,并结合法国数据实例展示各方法的应用方式。瑞典数据保护机构(IMY)及其他欧盟机构均将其纳入自身规则体系。
**AI系统指南(2024年):**CNIL列出了AI训练中须处理的六类数据,是欧盟唯一在AI领域给出如此明确要求的数据保护机构。
**Cookie规则:**CNIL的Cookie指南为欧盟同意管理工具设定了最高技术标准,且定期更新。
NIR:法国最敏感的身份标识
国家人口登记号(NIR)——又称「社会保障号码」(numéro de sécurité sociale)——是一个15位数字的法国社会保障号码。
其格式为:S AA MM DD CCC OOO K
- S — 1位:性别
- AA — 出生年份
- MM — 出生月份
- DD — 出生省份代码(01–95,科西嘉岛使用2A/2B,海外省使用97–99,外国出生使用99)
- CCC — 市镇代码
- OOO — 出生序号
- K — 2位校验密钥(97 − (NIR mod 97))
NIR在一个号码中同时编码了性别、出生日期和出生地。CNIL将其列为高风险数据,须参照GDPR第9条特殊类别数据的标准加以保护。
**工具漏检NIR的原因:**通用NLP工具漏检NIR有三个原因:其一,15位数字(通常连续书写)与其他长数字难以区分;其二,第7至11位编码了省份代码,跳过mod-97校验的工具会放过大量误报;其三,科西嘉岛省份代码使用2A和2B而非纯数字,仅支持纯数字格式的工具在此处会失效。
有效的NIR检测须具备三项能力:mod-97密钥校验、地理编码本查询,以及科西嘉岛特殊规则支持。
有关身份标识覆盖范围如何融入GDPR保障体系,请参阅我们的安全合规概览。
SIREN与SIRET:个人文件中的企业身份标识
**SIREN:**9位法国企业识别码,末位为Luhn校验位,出现在所有法国商业文件中。
**SIRET:**14位编号,由SIREN(9位)加机构代码(5位)构成,标识具体经营地点,而SIREN标识企业主体。
企业文件中常将SIRET号码与员工姓名并列,CNIL将「SIRET+姓名」的组合视为个人数据,即便文件中没有独立的个人数据字段,该组合同样触发GDPR适用条件。
AI训练的六步匿名化要求
CNIL 2024年AI指南涵盖六类数据,在将法国个人数据用于AI训练之前,须逐一处理:
- 删除直接标识符 — 须替换或删除姓名、NIR、SIREN
- 泛化准标识符 — 年龄、省份、职业等字段组合可能实现重新识别,须降低其精度
- 对数值字段添加噪声 — 须添加经过校准的噪声以阻断推断攻击
- 验证k-匿名性 — 每条记录须与至少k-1条其他记录无法区分;CNIL建议k≥5
- 验证l-多样性 — 每个等价组内的敏感属性须具备充分多样性
- 执行重新识别风险评估 — 在任何数据发布前须采用有据可查的方法进行评估
仅删除NIR和全名是不够的,CNIL已在执法中多次确认这一立场。邮政编码和医疗专业等准标识符同样需要处理。
有关法国数据保护机构审计所期望的合规记录,请参阅我们的GDPR合规指南。
法语个人身份信息检测的语言背景
法国存在若干影响检测的语言背景因素。
标准法语是所有官方文件的书写语言,NER模型须支持带变音符号的字母:é、è、ê、ë、à、â、î、ô、û、ç、œ。
**海外省份(DOM-TOM):**马提尼克岛、瓜德罗普岛、留尼汪岛、法属圭亚那和马约特岛使用97至98范围内的NIR代码,当地姓名格式与法国本土有所不同。
**阿尔萨斯-摩泽尔地区:**法国文件中可能出现德语来源的姓名和部分德语文件格式,仅在标准法语文本上训练的模型可能对此产生漏检。
**跨境使用:**比利时法语使用不同的身份证格式,在法国和比利时同时使用的工具须为各自制定专属规则。
您的工具必须具备的能力
法语合规要求四项技术能力:
- 具备mod-97校验的NIR检测 — 单纯的模式匹配会失效,工具须执行密钥校验并支持2A/2B代码。
- 具备Luhn校验的SIREN/SIRET检测 — 企业身份标识出现在个人文件中,与姓名组合后产生GDPR约束。
- 支持完整变音符号的法语NER — 须处理复合名(Jean-Pierre)、姓氏小品词(de、du、des)和带变音符号的字母。
- 有据可查的六步流程 — 任何使用法国个人数据的AI训练流程均须为每项匿名化活动留存书面记录。