By · Last updated 2026-06-03

Quay lại BlogKỹ Thuật

Quyền Riêng Tư Có Thể Tái Tạo: Preset ML

Ẩn danh hóa dữ liệu đào tạo ML phải nhất quán và có thể tái tạo. Nếu nhà khoa học dữ liệu A và B áp dụng các loại thực thể khác nhau, tập dữ liệu đào tạo sẽ không nhất quán.

June 3, 20266 phút đọc
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Quyền Riêng Tư Có Thể Tái Tạo: Tại Sao Nhóm ML Cần Preset, Không Chỉ Tài Liệu

DPO đã phê duyệt kế hoạch ẩn danh hóa. Nó bao gồm bốn mục: tên, email, số điện thoại và ngày sinh. Phương pháp là Thay thế. Kế hoạch dài bốn trang và nằm trong wiki tuân thủ.

Mười hai nhà khoa học dữ liệu đọc nó tại buổi họp khởi động. Mỗi người thiết lập công cụ theo cách riêng. Một số thêm mã số quốc gia. Một số thêm địa chỉ IP. Một số chuyển sang Xóa. Ba tháng sau, các tập dữ liệu không nhất quán.

CNIL đã kiểm tra một số công ty AI vào năm 2024. Vấn đề: sử dụng không đúng thông tin cá nhân trong tập dữ liệu mô hình. Họ không chỉ hỏi liệu ẩn danh hóa có xảy ra không. Họ hỏi nó được áp dụng nhất quán như thế nào.

Tài liệu là cần thiết. Chúng chưa đủ. Giải pháp là preset.

Tại Sao Tập Dữ Liệu Mô Hình ML Cần Cấu Hình Riêng

Xây dựng tập dữ liệu mô hình có nhu cầu đặc biệt. Ẩn danh hóa tài liệu thông thường không chia sẻ chúng.

Thay thế, không Xóa. Các mô hình được đào tạo trên văn bản mà tên trở thành [REDACTED] học token đó như một dấu hiệu vị trí tên. Điều này làm hại mô hình. Thay thế hoán đổi "John Smith" với "David Chen". Mô hình thấy các mẫu tên thực. Nó không thấy token mặt nạ.

Cùng quy trình cho tất cả hồ sơ. Tập dữ liệu mà 70% tên được thay thế và 30% là [REDACTED] gửi tín hiệu hỗn hợp. Mỗi hồ sơ phải trải qua cùng các bước.

Cùng danh sách thực thể. Nếu tập dữ liệu chứa thông tin sức khỏe, xóa tên nhưng để lại ngày sinh trong một số hồ sơ tạo ra khoảng trống. Tất cả mười hai nhà khoa học dữ liệu phải xóa cùng loại.

Không xóa quá mức. Lấy ra các ngày là dấu thời gian — không phải ngày sinh — giảm chất lượng tập dữ liệu mà không có lợi ích tuân thủ nào. Preset được phê duyệt nói chính xác những mục nào cần xóa.

Đầu ra có thể tái tạo. Nếu tập dữ liệu phải chạy lại — chẳng hạn, sau khi tìm thấy một loại thực thể bị bỏ sót — preset cho kết quả giống nhau mỗi lần. Cấu hình ad-hoc thì không.

Vấn Đề Mười Hai Nhà Khoa Học Dữ Liệu

Một nhóm ML fintech ở châu Âu sử dụng tập dữ liệu từ nhật ký khách hàng. DPO đã phê duyệt mục đích — phát hiện gian lận — với một quy tắc: tất cả tên khách hàng, email, số điện thoại và mã thanh toán phải được thay thế trước khi bắt đầu công việc mô hình.

Không có preset:

  • Người 1 xóa tên, email và số điện thoại — nhưng bỏ sót mã thanh toán
  • Người 2 bao gồm mã thanh toán nhưng dùng Xóa, không phải Thay thế
  • Người 3 tuân theo tài liệu kế hoạch chính xác
  • Người 4–12 thay đổi

Tập dữ liệu được hợp nhất một phần không tuân thủ và một phần xử lý quá mức. DPO không thể chứng nhận nó.

Với preset được DPO phê duyệt:

  • DPO tạo "ML Dev — Phát Hiện Gian Lận" với loại thực thể chính xác và phương pháp Thay thế
  • Preset đến tất cả mười hai người với một quy tắc: dùng cái này cho tất cả công việc tập dữ liệu
  • Không ai có thể thay đổi preset mà không có sự phê duyệt của DPO

Mỗi người bây giờ tạo ra cùng kết quả. Tập dữ liệu được hợp nhất nhất quán. Kiểm toán AI hàng năm vượt qua với không có phát hiện nào. Năm trước có ba phát hiện từ công việc tập dữ liệu không nhất quán.

GDPR và Đạo Luật AI

Cập nhật cho năm 2026

Đạo Luật AI EU có hiệu lực đầy đủ vào tháng 8 năm 2024. Nó thêm các quy tắc cho các hệ thống AI sử dụng thông tin cá nhân cho công việc mô hình. Các hệ thống AI có rủi ro cao phải ghi lại tập dữ liệu của họ, bao gồm ẩn danh hóa nào được áp dụng.

GDPR Điều 5(1)(b) — quy tắc giới hạn mục đích — chặn việc sử dụng thông tin cá nhân mà không có cơ sở pháp lý rõ ràng. Các trường hợp CNIL năm 2024 tập trung vào khoảng trống này: thông tin được thu thập cho một dịch vụ được sử dụng cho công việc mô hình mà không có cơ sở hợp lệ hoặc ẩn danh hóa.

Preset giúp thỏa mãn cả hai bộ quy tắc:

  • Tên và cấu hình preset: phương pháp được ghi lại
  • Nhật ký xử lý: bằng chứng phương pháp được áp dụng
  • Phê duyệt DPO: ký kết được ghi lại trên cấu hình

Điều này tạo ra nhật ký kiểm toán mà cả hai luật yêu cầu. Để biết chi tiết nghĩa vụ Điều 10, xem hướng dẫn dữ liệu đào tạo Đạo Luật AI EU.

Cấu Hình Preset Cho Tập Dữ Liệu Mô Hình NLP

Loại cần bao gồm trong hầu hết tập dữ liệu mô hình NLP:

  • PERSON — Thay thế bằng tên tương tự
  • EMAIL_ADDRESS — Thay thế bằng địa chỉ tổng hợp
  • PHONE_NUMBER — Thay thế bằng số tổng hợp
  • CREDIT_CARD / IBAN — Thay thế hoặc Xóa
  • LOCATION — Thay thế bằng địa điểm tương tự nếu vị trí quan trọng; Xóa nếu không
  • DATE_OF_BIRTH — Xóa; phân nhóm tuổi thường là cần thiết

Loại thường để lại:

  • Ngày chung — dấu thời gian giúp mô hình thời gian
  • Tên tổ chức — giúp mô hình nhận dạng thực thể có tên
  • URL — giúp mô hình liên kết và tham chiếu

Trưởng nhóm ML và DPO đặt các quy tắc này trong preset được phê duyệt. Thành viên nhóm áp dụng nó. Họ không đưa ra lựa chọn cấu hình.

Preset Như Bộ Nhớ Tổ Chức

Trước khi có preset. Cấu hình thực thể đúng tồn tại trong đầu của ba nhà khoa học dữ liệu. Họ đã trải qua quá trình xem xét tuân thủ. Hai người rời đi vào Q3. Kiến thức ra đi cùng họ.

Sau khi có preset. Cấu hình nằm trong "ML Dev — Hồ Sơ Khách Hàng v2.1." Nhật ký phiên bản cho thấy khi nào nó được tạo, ai phê duyệt và những gì thay đổi từ v2.0. Thành viên nhóm mới sử dụng preset và nhận được tất cả kiến thức được tích hợp vào đó.

Phiên bản 2.1 thêm phát hiện IBAN sau khi xem xét thấy nó bị thiếu. Phiên bản 2.0 được phê duyệt vào tháng 2 năm 2025. Nhật ký hoàn chỉnh.

Để biết cách nhật ký xử lý và luồng xem xét DPO hoạt động, xem hướng dẫn ẩn danh hóa dữ liệu đào tạo ML GDPR.

Preset So Với Mẫu CNIL

Các trường hợp AI CNIL năm 2024 đặt ra mẫu rõ ràng. Họ hỏi không chỉ những gì đã được xóa mà còn cách nó được quản trị. Preset dùng chung với hồ sơ phê duyệt DPO và nhật ký xử lý trả lời điều này trực tiếp.

Cấu hình ad-hoc thì không. Cùng khoảng trống tồn tại trong các trường hợp DPA EU khác tuân theo logic CNIL. Để biết thêm về cách tiếp cận AI của CNIL, xem hướng dẫn tuân thủ AI GDPR CNIL Pháp.

Kết Luận

Tài liệu nói với thành viên nhóm những gì cần làm. Preset làm cho nó dễ dàng — và có thể thực thi — để làm theo cùng một cách mỗi lần.

Đối với tập dữ liệu mô hình ML, tính nhất quán vừa là nhu cầu pháp lý vừa là nhu cầu kỹ thuật. Preset đáp ứng cả hai cùng một lúc.

Các DPA nhìn vào thực hành AI muốn bằng chứng về ẩn danh hóa đồng nhất. Preset được áp dụng theo cùng một cách trên tất cả công việc tập dữ liệu là bằng chứng rõ ràng nhất bạn có thể đưa ra cho họ.

Nguồn Tham Khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.