倒计时已经开始
2026年更新版
欧盟《人工智能法》的截止日期已成定局。第10条规则自2026年8月2日起正式适用。若贵团队开发或运营高风险人工智能系统,务必立即行动。时间所剩无几。
罚款力度超过GDPR。最高罚款为3500万欧元或全球年营业额的7%。GDPR上限为2000万欧元或4%。没有任何其他人工智能法律的罚款力度更高。
哪些人工智能系统属于高风险?
《人工智能法》按风险等级对系统进行分类。高风险系统(附件三)涵盖以下领域的人工智能应用:
- 教育 — 学校录取或学生评分
- 就业 — 简历筛选、面试评分、员工监控
- 关键服务 — 信用评分、保险定价、紧急调度
- 执法 — 犯罪预测、生物特征识别
- 医疗健康 — 医疗器械软件、患者分诊
- 基础设施 — 能源、水务或交通管理
- 司法 — 法律研究工具、量刑辅助工具
若贵机构涉及上述任一领域,第10条即对其适用。
第10条:四项核心规则
第10条为高风险人工智能系统所使用的数据集制定了规则。以下是四项主要规定。
1. 书面治理
数据集必须遵循「适当的数据治理和管理实践」。您需要为数据采集、质量检查及持续审查建立书面流程。
2. 偏差检测
记录必须经过检查,排查可能导致不公平输出的「潜在偏差」。这要求主动测试,仅避免故意偏差远远不够。
3. 准确性与覆盖范围
数据集必须「相关、具有充分代表性且无错误」。遗漏特定群体的网络爬取数据可能无法通过这一检验。
4. 特殊记录类型
第10条第5款是最直接的规定。当高风险系统使用特殊类别记录——包括健康、种族、宗教、政治立场、生物特征数据——时,仅在「严格必要」的情况下方可处理这些数据,且须用于偏差检查。同时必须采取「适当的保障措施」。数据脱敏是可采用的最有力保障措施之一。
核心结论:大多数人工智能模型数据集包含个人记录。第10条要求在采用有力技术保障措施的前提下,使用最少必要数据。
罚款等级
欧盟《人工智能法》设有三个罚款等级,同类违规行为的罚款均超过GDPR:
| 法规 | 最高罚款 | 营业额上限 |
|---|---|---|
| GDPR | 2000万欧元 | 全球营业额4% |
| 欧盟《人工智能法》(高风险) | 1500万欧元 | 全球营业额3% |
| 欧盟《人工智能法》(禁止类) | 3500万欧元 | 全球营业额7% |
数据集违规属于高风险等级(1500万欧元/3%)。若监管机构认定在未采取保障措施的情况下使用个人记录属于禁止行为,则适用最高等级罚款。
实例说明:年营业额5亿欧元,按3%计算 = 罚款1500万欧元;年营业额50亿欧元,按3%计算 = 罚款1.5亿欧元。这些是真实数字,并非假设情形。
为何数据脱敏能解决这一问题
经过妥善脱敏的记录将超出GDPR的适用范围,从而消除第10条的大部分合规负担。
严苛规定——特殊类别数据处理、偏差检查、数据主体权利——仅在数据集包含个人记录时才适用。优先移除这些记录,大部分合规负担随之消除。
法国数据保护机构CNIL于2026年初明确表达了这一立场。其人工智能指南指出:对非模型性能所必需的个人记录进行数据脱敏,是满足第10条要求的首要技术措施。
这并非边缘观点,而是欧盟顶级人工智能监管机构的主流立场。
数据脱敏的实际操作
对人工智能模型数据集进行脱敏与对生产数据库进行脱敏有所不同。模型数据集可能包含:
- 含有个人信息的文档 — 合同、电子邮件、报告、工单
- 结构化记录 — 用于构建预测模型的客户数据表
- 标注内容 — 包含个人数据注释的图像或文本
- 合成记录 — 生成过程中可能仍保留个人信息模式的数据
必须对所有上述格式进行个人信息检测。遗漏任何一种类型都会使整个数据集面临风险。一份已删除姓名但保留完整地址的合同,仍会让模型学习到地域与人口特征之间的关联。
anonym.legal API 支持大型人工智能数据集的批量处理,可检测48种语言中的285+种实体类型。对于拥有多语言数据集的欧洲人工智能企业而言,跨语言覆盖至关重要。任一语言出现缺口,都会在整个系统中引发欧盟《人工智能法》合规风险。
实操步骤:数据集脱敏指南
第一步:先进行审计
在开始脱敏之前,先运行检测程序,了解数据集中存在哪些个人信息:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
响应结果将列出每个检测到的实体及其类型、位置和置信度分数。在正式开始前,对所有文件运行此操作,全面了解个人信息的分布范围。
第二步:批量脱敏
对于大型数据集,使用批量端点同时处理多个文件:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"完成:{result['id']} — 已移除 {len(result['items'])} 个实体")
第三步:留存记录
第10条要求对所执行的操作保存书面记录。每个数据集应记录:
- 所使用的检测模型及版本
- 检测到的实体类型及每类实体的处理方式
- 每个数据集中已移除的实体数量
- 脱敏日期及数据集版本号
这满足第10条第2款第(a)项对「数据治理和管理实践」的要求。
常见问题
脱敏会影响模型质量吗?
在大多数情况下不会。模型从文本结构中学习规律,而非依赖个人信息细节。将姓名、电话号码和地址替换为「[NAME]」或「[PHONE]」等占位符后,模型仍能学习到相同的规律。多项研究表明,经过脱敏的数据集所训练出的模型质量相当。关键在于使用一致的占位符,以便模型识别清晰的模式。
数据集非常庞大怎么办?
使用批量API。它支持大规模并行处理。定价页面提供高容量使用场景的方案说明。许多团队每月处理数百万条记录。
非英语数据集怎么处理?
该API支持48种语言,每种语言均使用针对该语言专门训练的检测模型,覆盖德语、法语、西班牙语、日语等多种语言。完整语言列表请参阅FAQ。混合语言数据集同样支持——您可以在批量请求中为每个文档单独指定语言。
科罗拉多州人工智能法:两个截止日期
科罗拉多州《人工智能法》于2026年6月30日生效——比欧盟截止日期早五周。该法为州法层面的「高风险人工智能系统」设定了类似规则,主要关注偏差与歧视问题。
同时面向欧盟和科罗拉多州的团队需在同一时期应对两项截止日期。对数据集进行脱敏有助于同时满足两项法规要求:欧盟第10条和科罗拉多州的反歧视规定。技术步骤完全一致。
立即行动
从今天开始,五个月的时间足够完成准备——但若等到六月才启动,则远远不够。
实操时间表:
- 第1—2周: 审计数据集——了解当前包含哪些个人记录
- 第3—6周: 构建并测试脱敏流程
- 第7—10周: 整理治理记录;进行法律审查
- 第11—16周: 验证——确认脱敏后的数据集符合第10条质量要求
- 8月2日: 执法日期——合规实践全面到位
anonym.legal API 可无缝接入现有流程,无需大规模改造。批量方案详情请参阅定价。第10条常见问题请查看FAQ。
对于同时涉及GDPR和第10条的记录,请使用GDPR合规检查清单。
欧盟《人工智能法》已准备就绪,随时启动执法。您的组织能否在8月2日前做好准备?
局限性与待解问题
针对《人工智能法》要求的数据脱敏实践仍处于演进阶段。以下是几项关键不确定因素。
合规阈值尚未明确。 欧盟《人工智能法》未规定何种程度的脱敏算作「充分」。在欧盟人工智能办公室发布指导意见之前,合规风险依然存在,您可能无法确定所采用的方法是否满足监管要求。
重新识别风险仍然存在。 研究表明,大型语言模型可能记忆并复现数据集中的内容。符合脱敏标准的记录在模型开发后仍可能被提取还原。模型开发前的脱敏并不能完全消除这一风险。
合成记录存在局限。 合成数据生成保留了统计规律,但可能引入细微偏差或遗漏罕见边缘情况。仅基于合成数据训练的模型在处理真实输入时可能表现欠佳。
第10条解释仍在形成中。 「适当技术措施」这一表述有待进一步解释。欧盟各成员国数据保护机构的早期工作尚未形成明确标准。请持续关注2026年全年欧洲数据保护委员会的指导意见及各成员国的决定。
参考来源
- 欧盟《人工智能法》,法规(EU)2024/1689,第9—17条(高风险人工智能义务),OJ L 2024/1689
- 欧盟《人工智能法》第10条——数据与数据治理
- CNIL人工智能数据集指导意见,2026年1月
- 科罗拉多州《人工智能法》,SB 205,2026年6月30日生效
- 欧盟《人工智能法》时间表:禁止实践自2025年2月2日起;高风险系统自2026年8月2日起