返回博客GDPR 与合规

欧盟《人工智能法》2026年8月:依据第10条对训练数据进行匿名化处理

欧盟《人工智能法》将于2026年8月2日全面执法。罚款上限为3500万欧元或全球营业额的7%。第10条要求对训练数据进行匿名化处理。

March 16, 20269 分钟阅读
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

倒计时已经开始

2026年更新版

欧盟《人工智能法》的截止日期已成定局。第10条规则自2026年8月2日起正式适用。若贵团队开发或运营高风险人工智能系统,务必立即行动。时间所剩无几。

罚款力度超过GDPR。最高罚款为3500万欧元或全球年营业额的7%。GDPR上限为2000万欧元或4%。没有任何其他人工智能法律的罚款力度更高。

哪些人工智能系统属于高风险?

《人工智能法》按风险等级对系统进行分类。高风险系统(附件三)涵盖以下领域的人工智能应用:

  • 教育 — 学校录取或学生评分
  • 就业 — 简历筛选、面试评分、员工监控
  • 关键服务 — 信用评分、保险定价、紧急调度
  • 执法 — 犯罪预测、生物特征识别
  • 医疗健康 — 医疗器械软件、患者分诊
  • 基础设施 — 能源、水务或交通管理
  • 司法 — 法律研究工具、量刑辅助工具

若贵机构涉及上述任一领域,第10条即对其适用。

第10条:四项核心规则

第10条为高风险人工智能系统所使用的数据集制定了规则。以下是四项主要规定。

1. 书面治理

数据集必须遵循「适当的数据治理和管理实践」。您需要为数据采集、质量检查及持续审查建立书面流程。

2. 偏差检测

记录必须经过检查,排查可能导致不公平输出的「潜在偏差」。这要求主动测试,仅避免故意偏差远远不够。

3. 准确性与覆盖范围

数据集必须「相关、具有充分代表性且无错误」。遗漏特定群体的网络爬取数据可能无法通过这一检验。

4. 特殊记录类型

第10条第5款是最直接的规定。当高风险系统使用特殊类别记录——包括健康、种族、宗教、政治立场、生物特征数据——时,仅在「严格必要」的情况下方可处理这些数据,且须用于偏差检查。同时必须采取「适当的保障措施」。数据脱敏是可采用的最有力保障措施之一。

核心结论:大多数人工智能模型数据集包含个人记录。第10条要求在采用有力技术保障措施的前提下,使用最少必要数据。

详情请参阅我们的法律合规页面安全概述

罚款等级

欧盟《人工智能法》设有三个罚款等级,同类违规行为的罚款均超过GDPR:

法规最高罚款营业额上限
GDPR2000万欧元全球营业额4%
欧盟《人工智能法》(高风险)1500万欧元全球营业额3%
欧盟《人工智能法》(禁止类)3500万欧元全球营业额7%

数据集违规属于高风险等级(1500万欧元/3%)。若监管机构认定在未采取保障措施的情况下使用个人记录属于禁止行为,则适用最高等级罚款。

实例说明:年营业额5亿欧元,按3%计算 = 罚款1500万欧元;年营业额50亿欧元,按3%计算 = 罚款1.5亿欧元。这些是真实数字,并非假设情形。

为何数据脱敏能解决这一问题

经过妥善脱敏的记录将超出GDPR的适用范围,从而消除第10条的大部分合规负担。

严苛规定——特殊类别数据处理、偏差检查、数据主体权利——仅在数据集包含个人记录时才适用。优先移除这些记录,大部分合规负担随之消除。

法国数据保护机构CNIL于2026年初明确表达了这一立场。其人工智能指南指出:对非模型性能所必需的个人记录进行数据脱敏,是满足第10条要求的首要技术措施。

这并非边缘观点,而是欧盟顶级人工智能监管机构的主流立场。

数据脱敏的实际操作

对人工智能模型数据集进行脱敏与对生产数据库进行脱敏有所不同。模型数据集可能包含:

  • 含有个人信息的文档 — 合同、电子邮件、报告、工单
  • 结构化记录 — 用于构建预测模型的客户数据表
  • 标注内容 — 包含个人数据注释的图像或文本
  • 合成记录 — 生成过程中可能仍保留个人信息模式的数据

必须对所有上述格式进行个人信息检测。遗漏任何一种类型都会使整个数据集面临风险。一份已删除姓名但保留完整地址的合同,仍会让模型学习到地域与人口特征之间的关联。

anonym.legal API 支持大型人工智能数据集的批量处理,可检测48种语言中的285+种实体类型。对于拥有多语言数据集的欧洲人工智能企业而言,跨语言覆盖至关重要。任一语言出现缺口,都会在整个系统中引发欧盟《人工智能法》合规风险。

有关实体检测的更多信息,请参阅令牌系统指南实体类型参考

实操步骤:数据集脱敏指南

第一步:先进行审计

在开始脱敏之前,先运行检测程序,了解数据集中存在哪些个人信息:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

响应结果将列出每个检测到的实体及其类型、位置和置信度分数。在正式开始前,对所有文件运行此操作,全面了解个人信息的分布范围。

第二步:批量脱敏

对于大型数据集,使用批量端点同时处理多个文件:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"完成:{result['id']} — 已移除 {len(result['items'])} 个实体")

第三步:留存记录

第10条要求对所执行的操作保存书面记录。每个数据集应记录:

  • 所使用的检测模型及版本
  • 检测到的实体类型及每类实体的处理方式
  • 每个数据集中已移除的实体数量
  • 脱敏日期及数据集版本号

这满足第10条第2款第(a)项对「数据治理和管理实践」的要求。

常见问题

脱敏会影响模型质量吗?

在大多数情况下不会。模型从文本结构中学习规律,而非依赖个人信息细节。将姓名、电话号码和地址替换为「[NAME]」或「[PHONE]」等占位符后,模型仍能学习到相同的规律。多项研究表明,经过脱敏的数据集所训练出的模型质量相当。关键在于使用一致的占位符,以便模型识别清晰的模式。

数据集非常庞大怎么办?

使用批量API。它支持大规模并行处理。定价页面提供高容量使用场景的方案说明。许多团队每月处理数百万条记录。

非英语数据集怎么处理?

该API支持48种语言,每种语言均使用针对该语言专门训练的检测模型,覆盖德语、法语、西班牙语、日语等多种语言。完整语言列表请参阅FAQ。混合语言数据集同样支持——您可以在批量请求中为每个文档单独指定语言。

科罗拉多州人工智能法:两个截止日期

科罗拉多州《人工智能法》于2026年6月30日生效——比欧盟截止日期早五周。该法为州法层面的「高风险人工智能系统」设定了类似规则,主要关注偏差与歧视问题。

同时面向欧盟和科罗拉多州的团队需在同一时期应对两项截止日期。对数据集进行脱敏有助于同时满足两项法规要求:欧盟第10条和科罗拉多州的反歧视规定。技术步骤完全一致。

立即行动

从今天开始,五个月的时间足够完成准备——但若等到六月才启动,则远远不够。

实操时间表:

  1. 第1—2周: 审计数据集——了解当前包含哪些个人记录
  2. 第3—6周: 构建并测试脱敏流程
  3. 第7—10周: 整理治理记录;进行法律审查
  4. 第11—16周: 验证——确认脱敏后的数据集符合第10条质量要求
  5. 8月2日: 执法日期——合规实践全面到位

anonym.legal API 可无缝接入现有流程,无需大规模改造。批量方案详情请参阅定价。第10条常见问题请查看FAQ

对于同时涉及GDPR和第10条的记录,请使用GDPR合规检查清单

欧盟《人工智能法》已准备就绪,随时启动执法。您的组织能否在8月2日前做好准备?

从GDPR合规检查清单开始 →

局限性与待解问题

针对《人工智能法》要求的数据脱敏实践仍处于演进阶段。以下是几项关键不确定因素。

合规阈值尚未明确。 欧盟《人工智能法》未规定何种程度的脱敏算作「充分」。在欧盟人工智能办公室发布指导意见之前,合规风险依然存在,您可能无法确定所采用的方法是否满足监管要求。

重新识别风险仍然存在。 研究表明,大型语言模型可能记忆并复现数据集中的内容。符合脱敏标准的记录在模型开发后仍可能被提取还原。模型开发前的脱敏并不能完全消除这一风险。

合成记录存在局限。 合成数据生成保留了统计规律,但可能引入细微偏差或遗漏罕见边缘情况。仅基于合成数据训练的模型在处理真实输入时可能表现欠佳。

第10条解释仍在形成中。 「适当技术措施」这一表述有待进一步解释。欧盟各成员国数据保护机构的早期工作尚未形成明确标准。请持续关注2026年全年欧洲数据保护委员会的指导意见及各成员国的决定。

参考来源

  • 欧盟《人工智能法》,法规(EU)2024/1689,第9—17条(高风险人工智能义务),OJ L 2024/1689
  • 欧盟《人工智能法》第10条——数据与数据治理
  • CNIL人工智能数据集指导意见,2026年1月
  • 科罗拉多州《人工智能法》,SB 205,2026年6月30日生效
  • 欧盟《人工智能法》时间表:禁止实践自2025年2月2日起;高风险系统自2026年8月2日起

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.