Quay lại BlogGDPR & Tuân Thủ

EU AI Act tháng 8 năm 2026: Ẩn danh dữ liệu huấn luyện để đáp ứng Điều 10

EU AI Act bắt đầu thực thi đầy đủ từ ngày 2 tháng 8 năm 2026. Phạt tới €35 triệu hoặc 7% doanh thu toàn cầu. Điều 10 yêu cầu ẩn danh dữ liệu huấn luyện.

March 16, 20269 phút đọc
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Đếm ngược đã bắt đầu

Cập nhật cho năm 2026

Hạn chót EU AI Act là thực sự. Các yêu cầu về hệ thống AI rủi ro cao — bao gồm nhiệm vụ quản trị dữ liệu huấn luyện theo Điều 10 — áp dụng từ ngày 2 tháng 8 năm 2026. Các tổ chức huấn luyện, tinh chỉnh hoặc triển khai hệ thống AI rủi ro cao mà chưa thiết lập thực hành dữ liệu huấn luyện tuân thủ có khoảng thời gian còn lại để khắc phục.

Mức phạt cao hơn GDPR: tới €35 triệu hoặc 7% doanh thu hàng năm toàn cầu, tùy mức nào cao hơn. GDPR giới hạn ở €20 triệu hoặc 4%. EU AI Act là quy định AI có hình phạt cao nhất đang có hiệu lực trên thế giới.

Hệ thống AI nào là "rủi ro cao"?

AI Act phân loại hệ thống theo rủi ro. Hệ thống rủi ro cao (Phụ lục III) bao gồm AI dùng trong:

  • Giáo dục — hệ thống xác định quyền vào trường hoặc chấm điểm học sinh
  • Việc làm — sàng lọc CV, chấm điểm phỏng vấn, giám sát nhân viên
  • Dịch vụ thiết yếu — đánh giá tín dụng, định giá bảo hiểm, điều phối cứu hộ khẩn cấp
  • Thực thi pháp luật — dự đoán tội phạm, phân tích tội phạm, nhận dạng sinh trắc học
  • Chăm sóc sức khỏe — phần mềm thiết bị y tế, hỗ trợ quyết định lâm sàng, phân loại bệnh nhân
  • Hạ tầng quan trọng — hệ thống quản lý năng lượng, nước, giao thông
  • Tư pháp — công cụ nghiên cứu pháp lý, hệ thống đề xuất án phạt

Nếu tổ chức của bạn huấn luyện hoặc triển khai AI trong bất kỳ danh mục nào, Điều 10 áp dụng cho bạn.

Điều 10: Bốn yêu cầu chính

Điều 10 thiết lập các yêu cầu cho dataset huấn luyện, xác nhận và kiểm tra dùng bởi hệ thống AI rủi ro cao.

1. Quản trị dữ liệu có tài liệu

Dataset phải tuân theo "thực hành quản trị và quản lý dữ liệu phù hợp." Bạn cần quy trình bằng văn bản cho thu thập dữ liệu, đánh giá chất lượng và giám sát liên tục.

2. Kiểm tra định kiến

Dữ liệu phải được kiểm tra tìm "các định kiến có thể" dẫn đến đầu ra phân biệt đối xử. Yêu cầu này quan trọng về mặt vận hành: nó bắt buộc kiểm tra định kiến tích cực, không chỉ vắng mặt thiết kế phân biệt đối xử cố ý.

3. Liên quan, đại diện và chính xác

Dataset phải "liên quan, đủ đại diện và trong phạm vi tốt nhất có thể, không có lỗi." Điều này tạo ra nghĩa vụ chất lượng mở rộng đến phương pháp thu thập dữ liệu.

4. Các loại dữ liệu đặc biệt

Điều 10(5) là nghĩa vụ trực tiếp hành động nhất: khi hệ thống AI rủi ro cao liên quan đến xử lý các loại đặc biệt của dữ liệu cá nhân (dữ liệu sức khỏe, nguồn gốc chủng tộc hoặc dân tộc, quan điểm chính trị, tín ngưỡng tôn giáo, dữ liệu sinh trắc học), các loại này chỉ có thể được xử lý khi "thực sự cần thiết" và "tuân theo các biện pháp bảo vệ phù hợp." Làm sạch dữ liệu là một trong những biện pháp mạnh nhất bạn có thể sử dụng.

Kết luận thực tế: hầu hết dataset AI chứa dữ liệu cá nhân. Điều 10 yêu cầu: sử dụng mức tối thiểu cần thiết với các biện pháp kỹ thuật mạnh.

Xem trang tuân thủ pháp lýtổng quan bảo mật của chúng tôi để biết chi tiết.

Bảng mức phạt

EU AI Act có ba mức phạt, tất cả đều vượt GDPR cho cùng loại vi phạm:

Quy địnhPhạt tối đaGiới hạn doanh thu
GDPR€20 triệu4% doanh thu toàn cầu
EU AI Act (rủi ro cao)€15 triệu3% doanh thu toàn cầu
EU AI Act (thực hành bị cấm)€35 triệu7% doanh thu toàn cầu

Vi phạm dataset thuộc mức rủi ro cao (€15 triệu / 3%). Nếu cơ quan quản lý xác định rằng sử dụng dữ liệu cá nhân mà không có biện pháp bảo vệ là thực hành bị cấm, mức cao nhất áp dụng.

Ví dụ thực tế: €500 triệu doanh thu × 3% = €15 triệu tiền phạt. €5 tỷ doanh thu × 3% = €150 triệu tiền phạt. Đây là những con số thực sự, không phải lý thuyết.

Tại sao ẩn danh là câu trả lời cho tuân thủ

Dữ liệu được ẩn danh đúng cách nằm ngoài phạm vi GDPR — và theo đó, giảm đáng kể bề mặt rủi ro AI Act cho quản trị dữ liệu huấn luyện.

Các yêu cầu khó khăn nhất của Điều 10 — xử lý loại đặc biệt, giám sát định kiến với dữ liệu cá nhân, quyền chủ thể dữ liệu trong dataset huấn luyện — áp dụng vì dữ liệu huấn luyện chứa dữ liệu cá nhân. Nếu dữ liệu huấn luyện được ẩn danh thực sự trước khi huấn luyện bắt đầu, các yêu cầu này bị loại bỏ hoặc giảm đáng kể.

CNIL (cơ quan bảo vệ dữ liệu Pháp) đã công bố khuyến nghị huấn luyện AI đầu năm 2026 rõ ràng nêu: "Tối thiểu hóa dữ liệu trước khi huấn luyện — bao gồm ẩn danh dữ liệu cá nhân không thực sự cần thiết cho hiệu suất mô hình — là biện pháp kỹ thuật chính để tuân thủ Điều 10."

Đây không phải diễn giải thiểu số. Đây là lập trường thực thi chính thống của cơ quan bảo vệ dữ liệu kỹ thuật tinh vi nhất của EU.

Ẩn danh dữ liệu huấn luyện có nghĩa là gì trong thực tế

Ẩn danh dữ liệu huấn luyện không giống ẩn danh dữ liệu production. Dữ liệu huấn luyện thường bao gồm:

  • Tài liệu nhúng PII — hợp đồng, email, báo cáo, ticket hỗ trợ dùng làm ví dụ fine-tuning
  • Hồ sơ có cấu trúc — bảng dữ liệu khách hàng dùng để huấn luyện mô hình dự đoán
  • Dataset được gán nhãn — hình ảnh hoặc văn bản với chú thích có thể chứa định danh cá nhân
  • Dữ liệu tổng hợp dựa trên hồ sơ thực — nơi quá trình tạo tổng hợp có thể giữ lại các mẫu định danh

anonym.legal API xử lý dữ liệu huấn luyện ở chế độ hàng loạt, phát hiện hơn 285 loại thực thể trên 48 ngôn ngữ. Với các tổ chức có dataset huấn luyện đa ngôn ngữ — phổ biến ở các công ty AI châu Âu phục vụ nhiều thị trường ngôn ngữ — phạm vi phủ sóng đa ngôn ngữ này là thiết yếu. Lỗ hổng tuân thủ trong một ngôn ngữ của dataset đa ngôn ngữ tạo ra rủi ro AI Act trên toàn bộ hệ thống.

Để biết thêm về phát hiện thực thể, xem hướng dẫn hệ thống tokentham chiếu loại thực thể.

Hướng dẫn thực tế: Ẩn danh pipeline huấn luyện

Bước 1: Kiểm toán dataset

Trước khi ẩn danh, chạy lượt phát hiện qua tất cả nguồn dữ liệu huấn luyện:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat training_document.txt)"'",
    "language": "en"
  }'

Phản hồi liệt kê tất cả thực thể được phát hiện với loại, vị trí và điểm tin cậy. Tổng hợp qua dataset để hiểu mức phơi lộ PII trước khi bắt đầu khắc phục.

Bước 2: Ẩn danh hàng loạt

Với dataset huấn luyện lớn, dùng batch endpoint để xử lý nhiều tài liệu song song:

import requests
import os
from pathlib import Path

def anonymize_training_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

training_dir = Path("./training_data")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in training_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = anonymize_training_batch(docs[i:i+batch_size])
    for result in results:
        out = training_dir / "anonymized" / result["id"]
        out.write_text(result["text"])
        print(f"Đã xử lý: {result['id']} — {len(result['items'])} thực thể đã loại bỏ")

Bước 3: Ghi lại quy trình

Điều 10 yêu cầu thực hành quản trị dữ liệu có tài liệu. Tài liệu quy trình ẩn danh của bạn cần bao gồm:

  • Mô hình phát hiện và phiên bản đã dùng
  • Các loại thực thể được phát hiện và chiến lược thay thế cho từng loại
  • Hồ sơ số lượng thực thể đã loại bỏ theo dataset
  • Ngày ẩn danh và phiên bản dữ liệu huấn luyện đã dùng

Tài liệu này cấu thành "thực hành quản trị và quản lý dữ liệu" theo yêu cầu của Điều 10(2)(a).

Câu hỏi thường gặp

Ẩn danh có làm giảm chất lượng mô hình không?

Trong hầu hết trường hợp, không. Mô hình học các mẫu từ cấu trúc văn bản, không phải từ chi tiết cá nhân. Tên, số điện thoại và địa chỉ có thể được thay bằng các chỗ giữ chỗ như [NAME] hoặc [PHONE], và mô hình vẫn học các mẫu tương tự. Nhiều nhóm nghiên cứu đã phát hiện rằng dataset đã ẩn danh cho chất lượng mô hình tương đương. Chìa khóa là dùng các chỗ giữ chỗ nhất quán để mô hình nhận ra mẫu rõ ràng.

Nếu dataset của tôi rất lớn thì sao?

Dùng batch API. Nó xử lý khối lượng lớn song song. Trang giá hiển thị các gói đăng ký cho các tình huống khối lượng cao. Nhiều nhóm xử lý hàng triệu hồ sơ mỗi tháng.

Với dataset không phải tiếng Anh thì sao?

API hỗ trợ 48 ngôn ngữ. Mỗi ngôn ngữ dùng mô hình phát hiện được huấn luyện cho ngôn ngữ đó. Tiếng Đức, Pháp, Tây Ban Nha, Nhật và nhiều ngôn ngữ khác đều được hỗ trợ. Xem FAQ để biết danh sách ngôn ngữ đầy đủ. Dataset hỗn hợp cũng được hỗ trợ — bạn có thể chỉ định ngôn ngữ theo từng tài liệu trong yêu cầu batch.

Colorado AI Act: Hai hạn chót

Colorado AI Act có hiệu lực ngày 30 tháng 6 năm 2026 — năm tuần trước hạn chót EU. Luật này áp đặt các yêu cầu tương tự cho "hệ thống AI rủi ro cao" theo luật bang, tập trung chủ yếu vào định kiến và phân biệt đối xử.

Các nhóm hoạt động ở cả EU lẫn Colorado đối mặt với hai hạn chót cùng lúc. Việc ẩn danh dataset giúp đáp ứng cả hai: Điều 10 (EU) và các quy tắc chống định kiến của Colorado. Các bước kỹ thuật là giống nhau.

Hành động ngay bây giờ

Trình tự tuân thủ:

  1. Tuần 1-2: Kiểm toán dataset — hiểu PII nào đang có mặt
  2. Tuần 3-6: Xây dựng và kiểm tra pipeline ẩn danh
  3. Tuần 7-10: Viết tài liệu quản trị; xem xét pháp lý
  4. Tuần 11-16: Xác nhận — kiểm tra dataset đã ẩn danh đáp ứng yêu cầu chất lượng của Điều 10
  5. Ngày 2 tháng 8: Ngày thực thi — thực hành quản trị dữ liệu huấn luyện tuân thủ đã được thiết lập

anonym.legal API tích hợp vào pipeline huấn luyện hiện có mà không cần thay đổi hạ tầng. Danh sách kiểm tra tuân thủ GDPR bao gồm các yêu cầu tài liệu quản trị dữ liệu chồng lấp giữa GDPR và Điều 10.

EU AI Act sẵn sàng thực thi. Câu hỏi cho các tổ chức xây dựng hệ thống AI rủi ro cao không phải là liệu tuân thủ có được yêu cầu — mà là liệu họ có sẵn sàng vào ngày 2 tháng 8 hay không.

Bắt đầu với danh sách kiểm tra tuân thủ GDPR →

Hạn chế và những bất ổn còn lại

Ngưỡng ẩn danh chưa được định nghĩa. EU AI Act không chỉ định mức ẩn danh nào là "đủ." Cho đến khi Văn phòng AI châu Âu ban hành hướng dẫn, các tổ chức đối mặt với bất ổn pháp lý về liệu kỹ thuật ẩn danh của họ có thỏa mãn cơ quan quản lý hay không.

Rủi ro tái nhận dạng trong huấn luyện AI. Nghiên cứu cho thấy các mô hình ngôn ngữ lớn có thể ghi nhớ và tái tạo dữ liệu huấn luyện, bao gồm cả hồ sơ được cho là đã ẩn danh. Dữ liệu đáp ứng tiêu chuẩn ẩn danh GDPR vẫn có thể bị trích xuất từ mô hình đã huấn luyện — rủi ro riêng biệt không được giải quyết đầy đủ bằng ẩn danh trước khi huấn luyện.

Hạn chế của dữ liệu tổng hợp. Tạo dữ liệu tổng hợp giữ nguyên phân phối thống kê nhưng có thể đưa vào định kiến tinh tế vắng mặt trong dữ liệu gốc, hoặc bỏ qua các trường hợp cạnh hiếm nhưng quan trọng. Mô hình được huấn luyện hoàn toàn trên dữ liệu tổng hợp có thể kém hiệu quả trên phân phối thực tế.

Khoảng cách diễn giải Điều 10. Ngôn ngữ "các biện pháp kỹ thuật phù hợp" trong Điều 10 cần diễn giải, và thực thi sớm của DPA ở các nước thành viên EU chưa hội tụ về các tiêu chuẩn nhất quán. Các nhóm pháp lý nên theo dõi sát sao hướng dẫn EDPB và quyết định DPA của các nước thành viên trong suốt năm 2026.

Nguồn

  • EU AI Act, Quy định (EU) 2024/1689, Điều 9-17 (nghĩa vụ AI rủi ro cao), OJ L 2024/1689
  • EU AI Act, Điều 10 — Dữ liệu và quản trị dữ liệu
  • Khuyến nghị dữ liệu huấn luyện AI của CNIL, tháng 1 năm 2026
  • Colorado AI Act, SB 205, có hiệu lực ngày 30 tháng 6 năm 2026
  • Lịch trình thực thi EU AI Act: thực hành bị cấm ngày 2 tháng 2 năm 2025; hệ thống rủi ro cao ngày 2 tháng 8 năm 2026

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.