Ủy ban Quốc gia Pháp về Tin học và Quyền Tự do (CNIL) là cơ quan bảo vệ dữ liệu đòi hỏi kỹ thuật nhất của EU. Trong khi các DPA khác chủ yếu tập trung vào tuân thủ thủ tục, CNIL công bố hướng dẫn kỹ thuật chi tiết — các "recommandations" — thiết lập các tiêu chuẩn thuật toán cụ thể cho ẩn danh, giả danh và quản trị dữ liệu AI. 63% các thông báo chính thức của CNIL năm 2024 trích dẫn ẩn danh không đầy đủ trong các hệ thống AI.
Ảnh Hưởng Kỹ Thuật Của CNIL Vượt Ra Ngoài Nước Pháp
Hướng dẫn kỹ thuật của CNIL thường xuyên được các DPA EU khác trích dẫn:
Guide pratique de l'anonymisation (2023): Hướng dẫn ẩn danh thực tiễn của CNIL bao gồm k-ẩn danh, l-đa dạng, quyền riêng tư vi sai và ứng dụng thực tiễn của chúng đối với các tập dữ liệu tiếng Pháp. Hơn 12 DPA EU tham chiếu hướng dẫn này trong hướng dẫn thực thi riêng (bao gồm IMY Thụy Điển, đã tạo ra phiên bản của riêng mình dựa một phần trên phương pháp của CNIL).
Hướng dẫn về hệ thống AI (2024): Hướng dẫn quản trị AI của CNIL bao gồm 6 danh mục ẩn danh bắt buộc cho dữ liệu đào tạo AI — hướng dẫn DPA EU cụ thể nhất về chủ đề này.
Yêu cầu kỹ thuật cookie: Hướng dẫn thực thi cookie của CNIL (được cập nhật thường xuyên) yêu cầu các triển khai kỹ thuật cụ thể cho các nền tảng quản lý đồng ý — hướng dẫn DPA cụ thể về mặt kỹ thuật nhất về công nghệ đồng ý trong EU.
NIR: Mã Định Danh Nhạy Cảm Nhất Của Pháp
Numéro d'Inscription au Répertoire (NIR) — còn được gọi là numéro de sécurité sociale — là số an sinh xã hội Pháp 15 chữ số theo định dạng:
S AAMMDDCCC OOO K
Trong đó:
- S = 1 chữ số: giới tính (1=nam, 2=nữ)
- AA = 2 chữ số: năm sinh
- MM = 2 chữ số: tháng sinh
- DD = 2 chữ số: bộ phận sinh (01-95, 2A/2B cho Corsica, 97-99 cho lãnh thổ hải ngoại, 99 cho sinh ở nước ngoài)
- CCC = 3 chữ số: mã đô thị trong bộ phận
- OOO = 3 chữ số: số thứ tự khai sinh
- K = 2 chữ số: khóa kiểm tra (97 - (NIR mod 97))
NIR mã hóa giới tính, ngày sinh, nơi sinh và thứ tự khai sinh — làm cho nó trở thành một trong các mã định danh quốc gia chứa nhiều thông tin nhất trong EU. CNIL phân loại NIR là cần bảo vệ ở mức cao tương đương với dữ liệu danh mục đặc biệt.
Thách thức phát hiện: Các công cụ NLP chung bỏ sót NIR trong 78% tài liệu theo phân tích năm 2024 của CNIL. Các lỗi cụ thể:
- Cấu trúc 15 chữ số của NIR (không có dấu phân cách trong nhiều tài liệu) bị nhầm lẫn với các chuỗi số dài khác
- Mã hóa bộ phận/đô thị (chữ số 7-11) yêu cầu kiến thức địa lý để xác thực — các công cụ không triển khai tính toán khóa mod-97 không thể phân biệt số NIR hợp lệ với kết quả dương tính giả
- Các bộ phận Corsica (2A/2B — chữ cái, không phải chữ số) làm hỏng các công cụ khớp mẫu chỉ mong đợi ký tự số
SIREN/SIRET: Mã Định Danh Doanh Nghiệp Trong Tài Liệu Pháp
Số SIREN: Mã định danh công ty Pháp 9 chữ số với chữ số kiểm tra Luhn. Xuất hiện trong tất cả tài liệu thương mại Pháp.
Số SIRET: Phần mở rộng 14 chữ số của SIREN (9 chữ số SIREN + 5 chữ số số hiệu cơ sở). SIRET xác định duy nhất một cơ sở kinh doanh cụ thể, trong khi SIREN xác định thực thể công ty.
Các tài liệu kinh doanh thường chứa số SIRET bên cạnh dữ liệu cá nhân của đại diện công ty — hướng dẫn thực thi của CNIL coi sự kết hợp của SIRET + tên cá nhân là tạo ra thông tin có thể nhận dạng kích hoạt nghĩa vụ GDPR.
Yêu Cầu Ẩn Danh AI Của CNIL
Hướng dẫn AI năm 2024 của CNIL yêu cầu 6 danh mục ẩn danh cụ thể cho dữ liệu đào tạo AI liên quan đến dữ liệu cá nhân tiếng Pháp:
- Loại bỏ mã định danh: Các mã định danh rõ ràng (tên, NIR, SIREN) phải được thay thế bằng bút danh hoặc loại bỏ
- Tổng quát hóa mã định danh gián tiếp: Các thuộc tính có thể cho phép tái nhận dạng kết hợp (tuổi, bộ phận, nghề nghiệp) phải được tổng quát hóa để giảm tính cụ thể
- Thêm nhiễu: Các thuộc tính số phải được thêm nhiễu được hiệu chỉnh để ngăn suy luận
- Xác minh k-ẩn danh: Mỗi cá nhân trong tập dữ liệu phải không thể phân biệt với ít nhất k-1 người khác (CNIL khuyến nghị k≥5)
- Xác minh l-đa dạng: Các giá trị thuộc tính nhạy cảm phải có đa dạng đầy đủ trong mỗi lớp tương đương
- Đánh giá rủi ro tái nhận dạng: Trước khi công bố, các tập dữ liệu phải trải qua đánh giá rủi ro tái nhận dạng sử dụng phương pháp được ghi chép
CNIL đã xác định rõ ràng rằng việc chỉ xóa NIR và họ tên đầy đủ khỏi tập dữ liệu không phải là ẩn danh đầy đủ. Các mã định danh gián tiếp bổ sung (tuổi, mã ZIP, nghề nghiệp, chuyên môn y tế) cũng phải được giải quyết.
Bối Cảnh Song Ngữ Pháp/Ngôn Ngữ Vùng
Pháp có tình huống ngôn ngữ phức tạp liên quan đến phát hiện PII:
Tiếng Pháp chính thống: Tiếng Pháp tiêu chuẩn được dùng ở Pháp — ngôn ngữ chính của tất cả tài liệu chính thức.
Mã định danh DOM-TOM: Các lãnh thổ hải ngoại (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) có mã hành chính riêng trong số NIR (tiền tố 97, 98 cho các bộ phận hải ngoại) và các quy ước tên địa phương.
Bối cảnh Alsatian: Vùng Alsace-Moselle có các quy ước hành chính Đức lịch sử — tên gốc Đức và một số định dạng tài liệu hành chính tiếng Đức xuất hiện trong hồ sơ hành chính Pháp.
Tiếng Pháp Bỉ: Đối với các tổ chức hoạt động trên cả Pháp và Bỉ, định dạng mã định danh tiếng Pháp và tiếng Bỉ khác nhau (NIR so với số đăng ký quốc gia Bỉ), và tiếng Pháp Bỉ sử dụng các quy ước tên hơi khác.
Để tuân thủ tiếng Pháp: phát hiện NIR với xác thực khóa mod-97, phát hiện SIREN/SIRET với xác thực Luhn, NER tiếng Pháp với hỗ trợ ký tự có dấu (é, è, ê, ë, à, â, î, ô, û, ç, œ) và ẩn danh được ghi chép đáp ứng khung 6 danh mục của CNIL cho dữ liệu đào tạo AI.
Nguồn tham khảo: