Đếm ngược đã bắt đầu
Cập nhật cho năm 2026
Hạn chót EU AI Act là thực sự. Các yêu cầu về hệ thống AI rủi ro cao — bao gồm nhiệm vụ quản trị dữ liệu huấn luyện theo Điều 10 — áp dụng từ ngày 2 tháng 8 năm 2026. Các tổ chức huấn luyện, tinh chỉnh hoặc triển khai hệ thống AI rủi ro cao mà chưa thiết lập thực hành dữ liệu huấn luyện tuân thủ có khoảng thời gian còn lại để khắc phục.
Mức phạt cao hơn GDPR: tới €35 triệu hoặc 7% doanh thu hàng năm toàn cầu, tùy mức nào cao hơn. GDPR giới hạn ở €20 triệu hoặc 4%. EU AI Act là quy định AI có hình phạt cao nhất đang có hiệu lực trên thế giới.
Hệ thống AI nào là "rủi ro cao"?
AI Act phân loại hệ thống theo rủi ro. Hệ thống rủi ro cao (Phụ lục III) bao gồm AI dùng trong:
- Giáo dục — hệ thống xác định quyền vào trường hoặc chấm điểm học sinh
- Việc làm — sàng lọc CV, chấm điểm phỏng vấn, giám sát nhân viên
- Dịch vụ thiết yếu — đánh giá tín dụng, định giá bảo hiểm, điều phối cứu hộ khẩn cấp
- Thực thi pháp luật — dự đoán tội phạm, phân tích tội phạm, nhận dạng sinh trắc học
- Chăm sóc sức khỏe — phần mềm thiết bị y tế, hỗ trợ quyết định lâm sàng, phân loại bệnh nhân
- Hạ tầng quan trọng — hệ thống quản lý năng lượng, nước, giao thông
- Tư pháp — công cụ nghiên cứu pháp lý, hệ thống đề xuất án phạt
Nếu tổ chức của bạn huấn luyện hoặc triển khai AI trong bất kỳ danh mục nào, Điều 10 áp dụng cho bạn.
Điều 10: Bốn yêu cầu chính
Điều 10 thiết lập các yêu cầu cho dataset huấn luyện, xác nhận và kiểm tra dùng bởi hệ thống AI rủi ro cao.
1. Quản trị dữ liệu có tài liệu
Dataset phải tuân theo "thực hành quản trị và quản lý dữ liệu phù hợp." Bạn cần quy trình bằng văn bản cho thu thập dữ liệu, đánh giá chất lượng và giám sát liên tục.
2. Kiểm tra định kiến
Dữ liệu phải được kiểm tra tìm "các định kiến có thể" dẫn đến đầu ra phân biệt đối xử. Yêu cầu này quan trọng về mặt vận hành: nó bắt buộc kiểm tra định kiến tích cực, không chỉ vắng mặt thiết kế phân biệt đối xử cố ý.
3. Liên quan, đại diện và chính xác
Dataset phải "liên quan, đủ đại diện và trong phạm vi tốt nhất có thể, không có lỗi." Điều này tạo ra nghĩa vụ chất lượng mở rộng đến phương pháp thu thập dữ liệu.
4. Các loại dữ liệu đặc biệt
Điều 10(5) là nghĩa vụ trực tiếp hành động nhất: khi hệ thống AI rủi ro cao liên quan đến xử lý các loại đặc biệt của dữ liệu cá nhân (dữ liệu sức khỏe, nguồn gốc chủng tộc hoặc dân tộc, quan điểm chính trị, tín ngưỡng tôn giáo, dữ liệu sinh trắc học), các loại này chỉ có thể được xử lý khi "thực sự cần thiết" và "tuân theo các biện pháp bảo vệ phù hợp." Làm sạch dữ liệu là một trong những biện pháp mạnh nhất bạn có thể sử dụng.
Kết luận thực tế: hầu hết dataset AI chứa dữ liệu cá nhân. Điều 10 yêu cầu: sử dụng mức tối thiểu cần thiết với các biện pháp kỹ thuật mạnh.
Xem trang tuân thủ pháp lý và tổng quan bảo mật của chúng tôi để biết chi tiết.
Bảng mức phạt
EU AI Act có ba mức phạt, tất cả đều vượt GDPR cho cùng loại vi phạm:
| Quy định | Phạt tối đa | Giới hạn doanh thu |
|---|---|---|
| GDPR | €20 triệu | 4% doanh thu toàn cầu |
| EU AI Act (rủi ro cao) | €15 triệu | 3% doanh thu toàn cầu |
| EU AI Act (thực hành bị cấm) | €35 triệu | 7% doanh thu toàn cầu |
Vi phạm dataset thuộc mức rủi ro cao (€15 triệu / 3%). Nếu cơ quan quản lý xác định rằng sử dụng dữ liệu cá nhân mà không có biện pháp bảo vệ là thực hành bị cấm, mức cao nhất áp dụng.
Ví dụ thực tế: €500 triệu doanh thu × 3% = €15 triệu tiền phạt. €5 tỷ doanh thu × 3% = €150 triệu tiền phạt. Đây là những con số thực sự, không phải lý thuyết.
Tại sao ẩn danh là câu trả lời cho tuân thủ
Dữ liệu được ẩn danh đúng cách nằm ngoài phạm vi GDPR — và theo đó, giảm đáng kể bề mặt rủi ro AI Act cho quản trị dữ liệu huấn luyện.
Các yêu cầu khó khăn nhất của Điều 10 — xử lý loại đặc biệt, giám sát định kiến với dữ liệu cá nhân, quyền chủ thể dữ liệu trong dataset huấn luyện — áp dụng vì dữ liệu huấn luyện chứa dữ liệu cá nhân. Nếu dữ liệu huấn luyện được ẩn danh thực sự trước khi huấn luyện bắt đầu, các yêu cầu này bị loại bỏ hoặc giảm đáng kể.
CNIL (cơ quan bảo vệ dữ liệu Pháp) đã công bố khuyến nghị huấn luyện AI đầu năm 2026 rõ ràng nêu: "Tối thiểu hóa dữ liệu trước khi huấn luyện — bao gồm ẩn danh dữ liệu cá nhân không thực sự cần thiết cho hiệu suất mô hình — là biện pháp kỹ thuật chính để tuân thủ Điều 10."
Đây không phải diễn giải thiểu số. Đây là lập trường thực thi chính thống của cơ quan bảo vệ dữ liệu kỹ thuật tinh vi nhất của EU.
Ẩn danh dữ liệu huấn luyện có nghĩa là gì trong thực tế
Ẩn danh dữ liệu huấn luyện không giống ẩn danh dữ liệu production. Dữ liệu huấn luyện thường bao gồm:
- Tài liệu nhúng PII — hợp đồng, email, báo cáo, ticket hỗ trợ dùng làm ví dụ fine-tuning
- Hồ sơ có cấu trúc — bảng dữ liệu khách hàng dùng để huấn luyện mô hình dự đoán
- Dataset được gán nhãn — hình ảnh hoặc văn bản với chú thích có thể chứa định danh cá nhân
- Dữ liệu tổng hợp dựa trên hồ sơ thực — nơi quá trình tạo tổng hợp có thể giữ lại các mẫu định danh
anonym.legal API xử lý dữ liệu huấn luyện ở chế độ hàng loạt, phát hiện hơn 285 loại thực thể trên 48 ngôn ngữ. Với các tổ chức có dataset huấn luyện đa ngôn ngữ — phổ biến ở các công ty AI châu Âu phục vụ nhiều thị trường ngôn ngữ — phạm vi phủ sóng đa ngôn ngữ này là thiết yếu. Lỗ hổng tuân thủ trong một ngôn ngữ của dataset đa ngôn ngữ tạo ra rủi ro AI Act trên toàn bộ hệ thống.
Để biết thêm về phát hiện thực thể, xem hướng dẫn hệ thống token và tham chiếu loại thực thể.
Hướng dẫn thực tế: Ẩn danh pipeline huấn luyện
Bước 1: Kiểm toán dataset
Trước khi ẩn danh, chạy lượt phát hiện qua tất cả nguồn dữ liệu huấn luyện:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat training_document.txt)"'",
"language": "en"
}'
Phản hồi liệt kê tất cả thực thể được phát hiện với loại, vị trí và điểm tin cậy. Tổng hợp qua dataset để hiểu mức phơi lộ PII trước khi bắt đầu khắc phục.
Bước 2: Ẩn danh hàng loạt
Với dataset huấn luyện lớn, dùng batch endpoint để xử lý nhiều tài liệu song song:
import requests
import os
from pathlib import Path
def anonymize_training_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
training_dir = Path("./training_data")
docs = [
{"id": f.name, "text": f.read_text()}
for f in training_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = anonymize_training_batch(docs[i:i+batch_size])
for result in results:
out = training_dir / "anonymized" / result["id"]
out.write_text(result["text"])
print(f"Đã xử lý: {result['id']} — {len(result['items'])} thực thể đã loại bỏ")
Bước 3: Ghi lại quy trình
Điều 10 yêu cầu thực hành quản trị dữ liệu có tài liệu. Tài liệu quy trình ẩn danh của bạn cần bao gồm:
- Mô hình phát hiện và phiên bản đã dùng
- Các loại thực thể được phát hiện và chiến lược thay thế cho từng loại
- Hồ sơ số lượng thực thể đã loại bỏ theo dataset
- Ngày ẩn danh và phiên bản dữ liệu huấn luyện đã dùng
Tài liệu này cấu thành "thực hành quản trị và quản lý dữ liệu" theo yêu cầu của Điều 10(2)(a).
Câu hỏi thường gặp
Ẩn danh có làm giảm chất lượng mô hình không?
Trong hầu hết trường hợp, không. Mô hình học các mẫu từ cấu trúc văn bản, không phải từ chi tiết cá nhân. Tên, số điện thoại và địa chỉ có thể được thay bằng các chỗ giữ chỗ như [NAME] hoặc [PHONE], và mô hình vẫn học các mẫu tương tự. Nhiều nhóm nghiên cứu đã phát hiện rằng dataset đã ẩn danh cho chất lượng mô hình tương đương. Chìa khóa là dùng các chỗ giữ chỗ nhất quán để mô hình nhận ra mẫu rõ ràng.
Nếu dataset của tôi rất lớn thì sao?
Dùng batch API. Nó xử lý khối lượng lớn song song. Trang giá hiển thị các gói đăng ký cho các tình huống khối lượng cao. Nhiều nhóm xử lý hàng triệu hồ sơ mỗi tháng.
Với dataset không phải tiếng Anh thì sao?
API hỗ trợ 48 ngôn ngữ. Mỗi ngôn ngữ dùng mô hình phát hiện được huấn luyện cho ngôn ngữ đó. Tiếng Đức, Pháp, Tây Ban Nha, Nhật và nhiều ngôn ngữ khác đều được hỗ trợ. Xem FAQ để biết danh sách ngôn ngữ đầy đủ. Dataset hỗn hợp cũng được hỗ trợ — bạn có thể chỉ định ngôn ngữ theo từng tài liệu trong yêu cầu batch.
Colorado AI Act: Hai hạn chót
Colorado AI Act có hiệu lực ngày 30 tháng 6 năm 2026 — năm tuần trước hạn chót EU. Luật này áp đặt các yêu cầu tương tự cho "hệ thống AI rủi ro cao" theo luật bang, tập trung chủ yếu vào định kiến và phân biệt đối xử.
Các nhóm hoạt động ở cả EU lẫn Colorado đối mặt với hai hạn chót cùng lúc. Việc ẩn danh dataset giúp đáp ứng cả hai: Điều 10 (EU) và các quy tắc chống định kiến của Colorado. Các bước kỹ thuật là giống nhau.
Hành động ngay bây giờ
Trình tự tuân thủ:
- Tuần 1-2: Kiểm toán dataset — hiểu PII nào đang có mặt
- Tuần 3-6: Xây dựng và kiểm tra pipeline ẩn danh
- Tuần 7-10: Viết tài liệu quản trị; xem xét pháp lý
- Tuần 11-16: Xác nhận — kiểm tra dataset đã ẩn danh đáp ứng yêu cầu chất lượng của Điều 10
- Ngày 2 tháng 8: Ngày thực thi — thực hành quản trị dữ liệu huấn luyện tuân thủ đã được thiết lập
anonym.legal API tích hợp vào pipeline huấn luyện hiện có mà không cần thay đổi hạ tầng. Danh sách kiểm tra tuân thủ GDPR bao gồm các yêu cầu tài liệu quản trị dữ liệu chồng lấp giữa GDPR và Điều 10.
EU AI Act sẵn sàng thực thi. Câu hỏi cho các tổ chức xây dựng hệ thống AI rủi ro cao không phải là liệu tuân thủ có được yêu cầu — mà là liệu họ có sẵn sàng vào ngày 2 tháng 8 hay không.
Bắt đầu với danh sách kiểm tra tuân thủ GDPR →
Hạn chế và những bất ổn còn lại
Ngưỡng ẩn danh chưa được định nghĩa. EU AI Act không chỉ định mức ẩn danh nào là "đủ." Cho đến khi Văn phòng AI châu Âu ban hành hướng dẫn, các tổ chức đối mặt với bất ổn pháp lý về liệu kỹ thuật ẩn danh của họ có thỏa mãn cơ quan quản lý hay không.
Rủi ro tái nhận dạng trong huấn luyện AI. Nghiên cứu cho thấy các mô hình ngôn ngữ lớn có thể ghi nhớ và tái tạo dữ liệu huấn luyện, bao gồm cả hồ sơ được cho là đã ẩn danh. Dữ liệu đáp ứng tiêu chuẩn ẩn danh GDPR vẫn có thể bị trích xuất từ mô hình đã huấn luyện — rủi ro riêng biệt không được giải quyết đầy đủ bằng ẩn danh trước khi huấn luyện.
Hạn chế của dữ liệu tổng hợp. Tạo dữ liệu tổng hợp giữ nguyên phân phối thống kê nhưng có thể đưa vào định kiến tinh tế vắng mặt trong dữ liệu gốc, hoặc bỏ qua các trường hợp cạnh hiếm nhưng quan trọng. Mô hình được huấn luyện hoàn toàn trên dữ liệu tổng hợp có thể kém hiệu quả trên phân phối thực tế.
Khoảng cách diễn giải Điều 10. Ngôn ngữ "các biện pháp kỹ thuật phù hợp" trong Điều 10 cần diễn giải, và thực thi sớm của DPA ở các nước thành viên EU chưa hội tụ về các tiêu chuẩn nhất quán. Các nhóm pháp lý nên theo dõi sát sao hướng dẫn EDPB và quyết định DPA của các nước thành viên trong suốt năm 2026.
Nguồn
- EU AI Act, Quy định (EU) 2024/1689, Điều 9-17 (nghĩa vụ AI rủi ro cao), OJ L 2024/1689
- EU AI Act, Điều 10 — Dữ liệu và quản trị dữ liệu
- Khuyến nghị dữ liệu huấn luyện AI của CNIL, tháng 1 năm 2026
- Colorado AI Act, SB 205, có hiệu lực ngày 30 tháng 6 năm 2026
- Lịch trình thực thi EU AI Act: thực hành bị cấm ngày 2 tháng 2 năm 2025; hệ thống rủi ro cao ngày 2 tháng 8 năm 2026