By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

CNIL Pháp: Yêu Cầu Công Cụ PII Của DPA

CNIL xử lý 16.433 khiếu nại năm 2023 (+43%). 63% thông báo CNIL trích dẫn ẩn danh AI không đầy đủ. NIR/số BHXH Pháp bị 78% công cụ chung bỏ sót.

June 5, 20269 phút đọc
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Ủy ban Quốc gia Pháp về Tin học và Quyền Tự do (CNIL) là cơ quan bảo vệ dữ liệu đòi hỏi kỹ thuật nhất của EU. Trong khi các DPA khác chủ yếu tập trung vào tuân thủ thủ tục, CNIL công bố hướng dẫn kỹ thuật chi tiết — các "recommandations" — thiết lập các tiêu chuẩn thuật toán cụ thể cho ẩn danh, giả danh và quản trị dữ liệu AI. 63% các thông báo chính thức của CNIL năm 2024 trích dẫn ẩn danh không đầy đủ trong các hệ thống AI.

Ảnh Hưởng Kỹ Thuật Của CNIL Vượt Ra Ngoài Nước Pháp

Hướng dẫn kỹ thuật của CNIL thường xuyên được các DPA EU khác trích dẫn:

Guide pratique de l'anonymisation (2023): Hướng dẫn ẩn danh thực tiễn của CNIL bao gồm k-ẩn danh, l-đa dạng, quyền riêng tư vi sai và ứng dụng thực tiễn của chúng đối với các tập dữ liệu tiếng Pháp. Hơn 12 DPA EU tham chiếu hướng dẫn này trong hướng dẫn thực thi riêng (bao gồm IMY Thụy Điển, đã tạo ra phiên bản của riêng mình dựa một phần trên phương pháp của CNIL).

Hướng dẫn về hệ thống AI (2024): Hướng dẫn quản trị AI của CNIL bao gồm 6 danh mục ẩn danh bắt buộc cho dữ liệu đào tạo AI — hướng dẫn DPA EU cụ thể nhất về chủ đề này.

Yêu cầu kỹ thuật cookie: Hướng dẫn thực thi cookie của CNIL (được cập nhật thường xuyên) yêu cầu các triển khai kỹ thuật cụ thể cho các nền tảng quản lý đồng ý — hướng dẫn DPA cụ thể về mặt kỹ thuật nhất về công nghệ đồng ý trong EU.

NIR: Mã Định Danh Nhạy Cảm Nhất Của Pháp

Numéro d'Inscription au Répertoire (NIR) — còn được gọi là numéro de sécurité sociale — là số an sinh xã hội Pháp 15 chữ số theo định dạng:

S AAMMDDCCC OOO K

Trong đó:

  • S = 1 chữ số: giới tính (1=nam, 2=nữ)
  • AA = 2 chữ số: năm sinh
  • MM = 2 chữ số: tháng sinh
  • DD = 2 chữ số: bộ phận sinh (01-95, 2A/2B cho Corsica, 97-99 cho lãnh thổ hải ngoại, 99 cho sinh ở nước ngoài)
  • CCC = 3 chữ số: mã đô thị trong bộ phận
  • OOO = 3 chữ số: số thứ tự khai sinh
  • K = 2 chữ số: khóa kiểm tra (97 - (NIR mod 97))

NIR mã hóa giới tính, ngày sinh, nơi sinh và thứ tự khai sinh — làm cho nó trở thành một trong các mã định danh quốc gia chứa nhiều thông tin nhất trong EU. CNIL phân loại NIR là cần bảo vệ ở mức cao tương đương với dữ liệu danh mục đặc biệt.

Thách thức phát hiện: Các công cụ NLP chung bỏ sót NIR trong 78% tài liệu theo phân tích năm 2024 của CNIL. Các lỗi cụ thể:

  • Cấu trúc 15 chữ số của NIR (không có dấu phân cách trong nhiều tài liệu) bị nhầm lẫn với các chuỗi số dài khác
  • Mã hóa bộ phận/đô thị (chữ số 7-11) yêu cầu kiến thức địa lý để xác thực — các công cụ không triển khai tính toán khóa mod-97 không thể phân biệt số NIR hợp lệ với kết quả dương tính giả
  • Các bộ phận Corsica (2A/2B — chữ cái, không phải chữ số) làm hỏng các công cụ khớp mẫu chỉ mong đợi ký tự số

SIREN/SIRET: Mã Định Danh Doanh Nghiệp Trong Tài Liệu Pháp

Số SIREN: Mã định danh công ty Pháp 9 chữ số với chữ số kiểm tra Luhn. Xuất hiện trong tất cả tài liệu thương mại Pháp.

Số SIRET: Phần mở rộng 14 chữ số của SIREN (9 chữ số SIREN + 5 chữ số số hiệu cơ sở). SIRET xác định duy nhất một cơ sở kinh doanh cụ thể, trong khi SIREN xác định thực thể công ty.

Các tài liệu kinh doanh thường chứa số SIRET bên cạnh dữ liệu cá nhân của đại diện công ty — hướng dẫn thực thi của CNIL coi sự kết hợp của SIRET + tên cá nhân là tạo ra thông tin có thể nhận dạng kích hoạt nghĩa vụ GDPR.

Yêu Cầu Ẩn Danh AI Của CNIL

Hướng dẫn AI năm 2024 của CNIL yêu cầu 6 danh mục ẩn danh cụ thể cho dữ liệu đào tạo AI liên quan đến dữ liệu cá nhân tiếng Pháp:

  1. Loại bỏ mã định danh: Các mã định danh rõ ràng (tên, NIR, SIREN) phải được thay thế bằng bút danh hoặc loại bỏ
  2. Tổng quát hóa mã định danh gián tiếp: Các thuộc tính có thể cho phép tái nhận dạng kết hợp (tuổi, bộ phận, nghề nghiệp) phải được tổng quát hóa để giảm tính cụ thể
  3. Thêm nhiễu: Các thuộc tính số phải được thêm nhiễu được hiệu chỉnh để ngăn suy luận
  4. Xác minh k-ẩn danh: Mỗi cá nhân trong tập dữ liệu phải không thể phân biệt với ít nhất k-1 người khác (CNIL khuyến nghị k≥5)
  5. Xác minh l-đa dạng: Các giá trị thuộc tính nhạy cảm phải có đa dạng đầy đủ trong mỗi lớp tương đương
  6. Đánh giá rủi ro tái nhận dạng: Trước khi công bố, các tập dữ liệu phải trải qua đánh giá rủi ro tái nhận dạng sử dụng phương pháp được ghi chép

CNIL đã xác định rõ ràng rằng việc chỉ xóa NIR và họ tên đầy đủ khỏi tập dữ liệu không phải là ẩn danh đầy đủ. Các mã định danh gián tiếp bổ sung (tuổi, mã ZIP, nghề nghiệp, chuyên môn y tế) cũng phải được giải quyết.

Bối Cảnh Song Ngữ Pháp/Ngôn Ngữ Vùng

Pháp có tình huống ngôn ngữ phức tạp liên quan đến phát hiện PII:

Tiếng Pháp chính thống: Tiếng Pháp tiêu chuẩn được dùng ở Pháp — ngôn ngữ chính của tất cả tài liệu chính thức.

Mã định danh DOM-TOM: Các lãnh thổ hải ngoại (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) có mã hành chính riêng trong số NIR (tiền tố 97, 98 cho các bộ phận hải ngoại) và các quy ước tên địa phương.

Bối cảnh Alsatian: Vùng Alsace-Moselle có các quy ước hành chính Đức lịch sử — tên gốc Đức và một số định dạng tài liệu hành chính tiếng Đức xuất hiện trong hồ sơ hành chính Pháp.

Tiếng Pháp Bỉ: Đối với các tổ chức hoạt động trên cả Pháp và Bỉ, định dạng mã định danh tiếng Pháp và tiếng Bỉ khác nhau (NIR so với số đăng ký quốc gia Bỉ), và tiếng Pháp Bỉ sử dụng các quy ước tên hơi khác.

Để tuân thủ tiếng Pháp: phát hiện NIR với xác thực khóa mod-97, phát hiện SIREN/SIRET với xác thực Luhn, NER tiếng Pháp với hỗ trợ ký tự có dấu (é, è, ê, ë, à, â, î, ô, û, ç, œ) và ẩn danh được ghi chép đáp ứng khung 6 danh mục của CNIL cho dữ liệu đào tạo AI.

Nguồn tham khảo:

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.