By · Last updated 2026-06-05

Kembali ke BlogGDPR & Pematuhan

CNIL Perancis: Keperluan Alat PII DPA

CNIL memproses 16,433 aduan pada 2023 (+43%). 63% notis CNIL memetik anonimisasi AI yang tidak mencukupi. NIR/SSN Perancis terlepas oleh 78% alat generik.

June 5, 20269 min baca
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Perancis: Keperluan Alat PII DPA

CNIL Perancis adalah badan data yang paling menuntut di EU. Kebanyakan pengawal selia EU menulis peraturan yang luas. CNIL pergi lebih jauh. Ia menerbitkan panduan teknikal yang tepat yang dipanggil recommandations. Ini menetapkan piawaian tepat untuk anonimisasi dan penggunaan data AI.

Notis CNIL pada 2024 sering memetik anonimisasi lemah dalam sistem AI. Agensi menerima 16,433 aduan pada 2023. Itu adalah 43% lebih banyak daripada 2022.

Panduan CNIL Membentuk Dasar EU

Teks teknikal CNIL banyak disebut oleh DPA EU lain. Dua panduan paling penting.

Guide pratique de l'anonymisation (2023): Panduan ini meliputi k-anonymity, l-diversity, dan privasi perbezaan. Ia menunjukkan cara menggunakan setiap kaedah pada data Perancis. IMY Sweden dan badan EU lain memetiknya dalam peraturan mereka sendiri.

Panduan sistem AI (2024): CNIL menyenaraikan enam jenis data yang mesti dikendalikan dalam latihan AI. Tiada DPA EU lain yang pergi sejauh ini mengenai AI.

Peraturan kuki: Panduan kuki CNIL menetapkan bar teknikal tertinggi untuk alat persetujuan di EU. Ia dikemas kini dengan kerap.

NIR: Pengecam Paling Sensitif Perancis

Numero d'Inscription au Repertoire (NIR) — juga dipanggil numero de securite sociale — ialah nombor keselamatan sosial Perancis 15 digit.

Formatnya ialah: S AA MM DD CCC OOO K

  • S — 1 digit: jantina
  • AA — tahun lahir
  • MM — bulan lahir
  • DD — jabatan lahir (01-95, 2A/2B untuk Corsica, 97-99 luar negeri, 99 asing)
  • CCC — kod perbandaran
  • OOO — urutan lahir
  • K — kunci semak 2 digit (97 - (NIR mod 97))

NIR menyimpan jantina, tarikh lahir, dan tempat lahir dalam satu nombor. CNIL menganggapnya berisiko tinggi. Ia memerlukan penjagaan yang sama seperti data kategori khas di bawah Artikel 9 GDPR.

Mengapa alat terlepas NIR: Alat NLP generik gagal pada NIR atas tiga sebab. Pertama, 15 digit (sering ditulis tanpa jurang) kelihatan seperti nombor panjang lain. Kedua, digit 7-11 menyimpan kod jabatan. Alat yang melangkau semakan mod-97 membiarkan positif palsu melalui. Ketiga, jabatan Corsican menggunakan 2A dan 2B, bukan digit tulen. Alat yang dibina untuk corak digit sahaja gagal di sini.

Pengesanan NIR yang baik memerlukan tiga perkara: semakan kunci mod-97, buku kod geografi, dan peraturan sedar-Corsica.

Lihat gambaran pematuhan keselamatan kami untuk cara liputan pengecam sesuai dalam timbunan perlindungan GDPR.

SIREN dan SIRET: ID Perniagaan dalam Fail Peribadi

SIREN: ID syarikat Perancis 9 digit dengan digit semak Luhn. Ia muncul dalam semua dokumen komersial Perancis.

SIRET: Nombor 14 digit yang dibina daripada SIREN (9 digit) tambah kod pertubuhan (5 digit). SIRET menamakan tapak. SIREN menamakan syarikat.

Fail perniagaan sering menyimpan nombor SIRET bersebelahan dengan nama kakitangan. CNIL menganggap SIRET tambah nama sebagai data peribadi. Pasangan itu mencetuskan peraturan GDPR walaupun tanpa medan data peribadi yang berasingan.

Enam Langkah Anonimisasi untuk Latihan AI

Panduan AI CNIL 2024 meliputi enam jenis data. Setiap satu mesti dikendalikan sebelum menggunakan rekod peribadi Perancis dalam latihan AI:

  1. Keluarkan pengecam langsung — Nama, NIR, SIREN mesti diganti atau dikeluarkan
  2. Umum pengecam quasi — Umur, jabatan, profesion boleh bergabung untuk mengenal pasti semula orang; kurangkan ketepatannya
  3. Tambah bunyi pada nombor — Medan berangka memerlukan bunyi yang dikalibrasi untuk menyekat inferens
  4. Semak k-anonymity — Setiap orang mesti kelihatan seperti sekurang-kurangnya k-1 orang lain; CNIL menunjuk kepada k >= 5
  5. Semak l-diversity — Atribut sensitif mesti berbeza dalam setiap kumpulan
  6. Jalankan semakan risiko pengecaman semula — Gunakan kaedah yang didokumentasikan sebelum sebarang keluaran data

Mengeluarkan NIR dan nama penuh sahaja tidak mencukupi. CNIL telah mendapati ini dalam penguatkuasaan. Pengecam quasi seperti kod ZIP dan kepakaran perubatan juga memerlukan rawatan.

Panduan pematuhan GDPR kami meliputi rekod yang dijangka dalam audit DPA Perancis.

Konteks Bahasa untuk Pengesanan PII Perancis

Perancis mempunyai beberapa konteks linguistik yang mempengaruhi pengesanan.

Bahasa Perancis standard adalah bahasa semua dokumen rasmi. Model NER mesti mengendalikan huruf beraksen: e, e, e, e, a, a, i, o, u, c, oe.

Wilayah seberang laut (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane, dan Mayotte menggunakan kod NIR dalam julat 97-98. Corak nama tempatan berbeza daripada Perancis daratan.

Alsace-Moselle: Nama asal Jerman dan beberapa format dokumen Jerman muncul dalam rekod Perancis. Model yang dilatih hanya pada bahasa Perancis standard mungkin terlepas ini.

Penggunaan rentas sempadan: Perancis Belgium menggunakan format ID yang berbeza. Alat yang digunakan di Perancis dan Belgium memerlukan peraturan untuk setiap satu.

Apa yang Alat Anda Mesti Liputi

Pematuhan Perancis memerlukan empat kemampuan teknikal:

  1. NIR dengan semakan mod-97 — Pemadanan corak sahaja gagal. Alat mesti menjalankan semakan kunci dan mengendalikan kod 2A/2B.
  2. SIREN/SIRET dengan semakan Luhn — ID perniagaan muncul dalam fail peribadi dan mencipta gabungan nama yang dilindungi GDPR.
  3. NER Perancis dengan sokongan aksen penuh — Mesti mengendalikan nama kompaun (Jean-Pierre), zarah (de, du, des), dan aksara beraksen.
  4. Proses enam langkah yang didokumentasikan — Sebarang saluran latihan AI pada data Perancis memerlukan rekod bertulis untuk setiap aktiviti anonimisasi.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.