法国CNIL：数据保护机构对PII工具的技术要求

法国信息与自由委员会（CNIL）是欧盟要求最为严格的数据监管机构。多数欧盟监管机构仅制定原则性规则，CNIL则更进一步，发布称为「建议」（recommandations）的精确技术指南，为匿名化和AI数据使用设定了明确的技术标准。

2024年CNIL通知中频繁援引AI系统匿名化不足问题。该机构2023年共受理16,433件投诉，较2022年增加43%。

CNIL指南引领欧盟政策方向

CNIL的技术文件被欧盟其他数据保护机构广泛引用，其中两份指南最为重要。

**《匿名化实践指南》（2023年）：**该指南覆盖k-匿名性、l-多样性和差分隐私，并结合法国数据实例展示各方法的应用方式。瑞典数据保护机构（IMY）及其他欧盟机构均将其纳入自身规则体系。

**AI系统指南（2024年）：**CNIL列出了AI训练中须处理的六类数据，是欧盟唯一在AI领域给出如此明确要求的数据保护机构。

**Cookie规则：**CNIL的Cookie指南为欧盟同意管理工具设定了最高技术标准，且定期更新。

NIR：法国最敏感的身份标识

国家人口登记号（NIR）——又称「社会保障号码」（numéro de sécurité sociale）——是一个15位数字的法国社会保障号码。

其格式为：S AA MM DD CCC OOO K

S — 1位：性别
AA — 出生年份
MM — 出生月份
DD — 出生省份代码（01–95，科西嘉岛使用2A/2B，海外省使用97–99，外国出生使用99）
CCC — 市镇代码
OOO — 出生序号
K — 2位校验密钥（97 − (NIR mod 97)）

NIR在一个号码中同时编码了性别、出生日期和出生地。CNIL将其列为高风险数据，须参照GDPR第9条特殊类别数据的标准加以保护。

**工具漏检NIR的原因：**通用NLP工具漏检NIR有三个原因：其一，15位数字（通常连续书写）与其他长数字难以区分；其二，第7至11位编码了省份代码，跳过mod-97校验的工具会放过大量误报；其三，科西嘉岛省份代码使用2A和2B而非纯数字，仅支持纯数字格式的工具在此处会失效。

有效的NIR检测须具备三项能力：mod-97密钥校验、地理编码本查询，以及科西嘉岛特殊规则支持。

有关身份标识覆盖范围如何融入GDPR保障体系，请参阅我们的安全合规概览。

SIREN与SIRET：个人文件中的企业身份标识

**SIREN：**9位法国企业识别码，末位为Luhn校验位，出现在所有法国商业文件中。

**SIRET：**14位编号，由SIREN（9位）加机构代码（5位）构成，标识具体经营地点，而SIREN标识企业主体。

企业文件中常将SIRET号码与员工姓名并列，CNIL将「SIRET+姓名」的组合视为个人数据，即便文件中没有独立的个人数据字段，该组合同样触发GDPR适用条件。

AI训练的六步匿名化要求

CNIL 2024年AI指南涵盖六类数据，在将法国个人数据用于AI训练之前，须逐一处理：

删除直接标识符 — 须替换或删除姓名、NIR、SIREN
泛化准标识符 — 年龄、省份、职业等字段组合可能实现重新识别，须降低其精度
对数值字段添加噪声 — 须添加经过校准的噪声以阻断推断攻击
验证k-匿名性 — 每条记录须与至少k-1条其他记录无法区分；CNIL建议k≥5
验证l-多样性 — 每个等价组内的敏感属性须具备充分多样性
执行重新识别风险评估 — 在任何数据发布前须采用有据可查的方法进行评估

仅删除NIR和全名是不够的，CNIL已在执法中多次确认这一立场。邮政编码和医疗专业等准标识符同样需要处理。

有关法国数据保护机构审计所期望的合规记录，请参阅我们的GDPR合规指南。

法语个人身份信息检测的语言背景

法国存在若干影响检测的语言背景因素。

标准法语是所有官方文件的书写语言，NER模型须支持带变音符号的字母：é、è、ê、ë、à、â、î、ô、û、ç、œ。

**海外省份（DOM-TOM）：**马提尼克岛、瓜德罗普岛、留尼汪岛、法属圭亚那和马约特岛使用97至98范围内的NIR代码，当地姓名格式与法国本土有所不同。

**阿尔萨斯-摩泽尔地区：**法国文件中可能出现德语来源的姓名和部分德语文件格式，仅在标准法语文本上训练的模型可能对此产生漏检。

**跨境使用：**比利时法语使用不同的身份证格式，在法国和比利时同时使用的工具须为各自制定专属规则。

您的工具必须具备的能力

法语合规要求四项技术能力：

具备mod-97校验的NIR检测 — 单纯的模式匹配会失效，工具须执行密钥校验并支持2A/2B代码。
具备Luhn校验的SIREN/SIRET检测 — 企业身份标识出现在个人文件中，与姓名组合后产生GDPR约束。
支持完整变音符号的法语NER — 须处理复合名（Jean-Pierre）、姓氏小品词（de、du、des）和带变音符号的字母。
有据可查的六步流程 — 任何使用法国个人数据的AI训练流程均须为每项匿名化活动留存书面记录。

参考来源

准备好保护您的数据了吗？

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

开始免费试用查看功能

法国CNIL：数据保护机构对PII工具的技术要求