Quyền Riêng Tư Có Thể Tái Tạo: Tại Sao Nhóm ML Cần Preset, Không Chỉ Tài Liệu
DPO đã phê duyệt kế hoạch ẩn danh hóa. Nó bao gồm bốn mục: tên, email, số điện thoại và ngày sinh. Phương pháp là Thay thế. Kế hoạch dài bốn trang và nằm trong wiki tuân thủ.
Mười hai nhà khoa học dữ liệu đọc nó tại buổi họp khởi động. Mỗi người thiết lập công cụ theo cách riêng. Một số thêm mã số quốc gia. Một số thêm địa chỉ IP. Một số chuyển sang Xóa. Ba tháng sau, các tập dữ liệu không nhất quán.
CNIL đã kiểm tra một số công ty AI vào năm 2024. Vấn đề: sử dụng không đúng thông tin cá nhân trong tập dữ liệu mô hình. Họ không chỉ hỏi liệu ẩn danh hóa có xảy ra không. Họ hỏi nó được áp dụng nhất quán như thế nào.
Tài liệu là cần thiết. Chúng chưa đủ. Giải pháp là preset.
Tại Sao Tập Dữ Liệu Mô Hình ML Cần Cấu Hình Riêng
Xây dựng tập dữ liệu mô hình có nhu cầu đặc biệt. Ẩn danh hóa tài liệu thông thường không chia sẻ chúng.
Thay thế, không Xóa. Các mô hình được đào tạo trên văn bản mà tên trở thành [REDACTED] học token đó như một dấu hiệu vị trí tên. Điều này làm hại mô hình. Thay thế hoán đổi "John Smith" với "David Chen". Mô hình thấy các mẫu tên thực. Nó không thấy token mặt nạ.
Cùng quy trình cho tất cả hồ sơ. Tập dữ liệu mà 70% tên được thay thế và 30% là [REDACTED] gửi tín hiệu hỗn hợp. Mỗi hồ sơ phải trải qua cùng các bước.
Cùng danh sách thực thể. Nếu tập dữ liệu chứa thông tin sức khỏe, xóa tên nhưng để lại ngày sinh trong một số hồ sơ tạo ra khoảng trống. Tất cả mười hai nhà khoa học dữ liệu phải xóa cùng loại.
Không xóa quá mức. Lấy ra các ngày là dấu thời gian — không phải ngày sinh — giảm chất lượng tập dữ liệu mà không có lợi ích tuân thủ nào. Preset được phê duyệt nói chính xác những mục nào cần xóa.
Đầu ra có thể tái tạo. Nếu tập dữ liệu phải chạy lại — chẳng hạn, sau khi tìm thấy một loại thực thể bị bỏ sót — preset cho kết quả giống nhau mỗi lần. Cấu hình ad-hoc thì không.
Vấn Đề Mười Hai Nhà Khoa Học Dữ Liệu
Một nhóm ML fintech ở châu Âu sử dụng tập dữ liệu từ nhật ký khách hàng. DPO đã phê duyệt mục đích — phát hiện gian lận — với một quy tắc: tất cả tên khách hàng, email, số điện thoại và mã thanh toán phải được thay thế trước khi bắt đầu công việc mô hình.
Không có preset:
- Người 1 xóa tên, email và số điện thoại — nhưng bỏ sót mã thanh toán
- Người 2 bao gồm mã thanh toán nhưng dùng Xóa, không phải Thay thế
- Người 3 tuân theo tài liệu kế hoạch chính xác
- Người 4–12 thay đổi
Tập dữ liệu được hợp nhất một phần không tuân thủ và một phần xử lý quá mức. DPO không thể chứng nhận nó.
Với preset được DPO phê duyệt:
- DPO tạo "ML Dev — Phát Hiện Gian Lận" với loại thực thể chính xác và phương pháp Thay thế
- Preset đến tất cả mười hai người với một quy tắc: dùng cái này cho tất cả công việc tập dữ liệu
- Không ai có thể thay đổi preset mà không có sự phê duyệt của DPO
Mỗi người bây giờ tạo ra cùng kết quả. Tập dữ liệu được hợp nhất nhất quán. Kiểm toán AI hàng năm vượt qua với không có phát hiện nào. Năm trước có ba phát hiện từ công việc tập dữ liệu không nhất quán.
GDPR và Đạo Luật AI
Cập nhật cho năm 2026
Đạo Luật AI EU có hiệu lực đầy đủ vào tháng 8 năm 2024. Nó thêm các quy tắc cho các hệ thống AI sử dụng thông tin cá nhân cho công việc mô hình. Các hệ thống AI có rủi ro cao phải ghi lại tập dữ liệu của họ, bao gồm ẩn danh hóa nào được áp dụng.
GDPR Điều 5(1)(b) — quy tắc giới hạn mục đích — chặn việc sử dụng thông tin cá nhân mà không có cơ sở pháp lý rõ ràng. Các trường hợp CNIL năm 2024 tập trung vào khoảng trống này: thông tin được thu thập cho một dịch vụ được sử dụng cho công việc mô hình mà không có cơ sở hợp lệ hoặc ẩn danh hóa.
Preset giúp thỏa mãn cả hai bộ quy tắc:
- Tên và cấu hình preset: phương pháp được ghi lại
- Nhật ký xử lý: bằng chứng phương pháp được áp dụng
- Phê duyệt DPO: ký kết được ghi lại trên cấu hình
Điều này tạo ra nhật ký kiểm toán mà cả hai luật yêu cầu. Để biết chi tiết nghĩa vụ Điều 10, xem hướng dẫn dữ liệu đào tạo Đạo Luật AI EU.
Cấu Hình Preset Cho Tập Dữ Liệu Mô Hình NLP
Loại cần bao gồm trong hầu hết tập dữ liệu mô hình NLP:
- PERSON — Thay thế bằng tên tương tự
- EMAIL_ADDRESS — Thay thế bằng địa chỉ tổng hợp
- PHONE_NUMBER — Thay thế bằng số tổng hợp
- CREDIT_CARD / IBAN — Thay thế hoặc Xóa
- LOCATION — Thay thế bằng địa điểm tương tự nếu vị trí quan trọng; Xóa nếu không
- DATE_OF_BIRTH — Xóa; phân nhóm tuổi thường là cần thiết
Loại thường để lại:
- Ngày chung — dấu thời gian giúp mô hình thời gian
- Tên tổ chức — giúp mô hình nhận dạng thực thể có tên
- URL — giúp mô hình liên kết và tham chiếu
Trưởng nhóm ML và DPO đặt các quy tắc này trong preset được phê duyệt. Thành viên nhóm áp dụng nó. Họ không đưa ra lựa chọn cấu hình.
Preset Như Bộ Nhớ Tổ Chức
Trước khi có preset. Cấu hình thực thể đúng tồn tại trong đầu của ba nhà khoa học dữ liệu. Họ đã trải qua quá trình xem xét tuân thủ. Hai người rời đi vào Q3. Kiến thức ra đi cùng họ.
Sau khi có preset. Cấu hình nằm trong "ML Dev — Hồ Sơ Khách Hàng v2.1." Nhật ký phiên bản cho thấy khi nào nó được tạo, ai phê duyệt và những gì thay đổi từ v2.0. Thành viên nhóm mới sử dụng preset và nhận được tất cả kiến thức được tích hợp vào đó.
Phiên bản 2.1 thêm phát hiện IBAN sau khi xem xét thấy nó bị thiếu. Phiên bản 2.0 được phê duyệt vào tháng 2 năm 2025. Nhật ký hoàn chỉnh.
Để biết cách nhật ký xử lý và luồng xem xét DPO hoạt động, xem hướng dẫn ẩn danh hóa dữ liệu đào tạo ML GDPR.
Preset So Với Mẫu CNIL
Các trường hợp AI CNIL năm 2024 đặt ra mẫu rõ ràng. Họ hỏi không chỉ những gì đã được xóa mà còn cách nó được quản trị. Preset dùng chung với hồ sơ phê duyệt DPO và nhật ký xử lý trả lời điều này trực tiếp.
Cấu hình ad-hoc thì không. Cùng khoảng trống tồn tại trong các trường hợp DPA EU khác tuân theo logic CNIL. Để biết thêm về cách tiếp cận AI của CNIL, xem hướng dẫn tuân thủ AI GDPR CNIL Pháp.
Kết Luận
Tài liệu nói với thành viên nhóm những gì cần làm. Preset làm cho nó dễ dàng — và có thể thực thi — để làm theo cùng một cách mỗi lần.
Đối với tập dữ liệu mô hình ML, tính nhất quán vừa là nhu cầu pháp lý vừa là nhu cầu kỹ thuật. Preset đáp ứng cả hai cùng một lúc.
Các DPA nhìn vào thực hành AI muốn bằng chứng về ẩn danh hóa đồng nhất. Preset được áp dụng theo cùng một cách trên tất cả công việc tập dữ liệu là bằng chứng rõ ràng nhất bạn có thể đưa ra cho họ.