By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

CNIL Prancis: Persyaratan Alat PII dari DPA

CNIL memproses 16.433 pengaduan pada 2023 (+43%). 63% pemberitahuan CNIL mengutip anonimisasi AI yang tidak memadai. NIR/SSN Prancis terlewatkan oleh 78% alat generik.

June 5, 20269 menit baca
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Prancis: Persyaratan Alat PII dari DPA

CNIL Prancis adalah badan data paling ketat di UE. Sebagian besar regulator UE menulis aturan yang luas. CNIL melangkah lebih jauh. CNIL menerbitkan panduan teknis yang tepat yang disebut recommandations. Ini menetapkan standar yang tepat untuk anonimisasi dan penggunaan data AI.

Pemberitahuan CNIL pada 2024 sering mengutip anonimisasi yang lemah dalam sistem AI. Lembaga ini menerima 16.433 pengaduan pada 2023. Angka itu 43% lebih banyak dari 2022.

Panduan CNIL Membentuk Kebijakan UE

Teks teknis CNIL banyak dikutip oleh DPA UE lainnya. Dua panduan sangat penting.

Guide pratique de l'anonymisation (2023): Panduan ini mencakup k-anonymity, l-diversity, dan differential privacy. Ini menunjukkan cara menggunakan setiap metode pada data Prancis. IMY Swedia dan badan UE lainnya mengutipnya dalam aturan mereka sendiri.

Panduan sistem AI (2024): CNIL mencantumkan enam jenis data yang harus ditangani dalam pelatihan AI. Tidak ada DPA UE lain yang melangkah sejauh ini dalam hal AI.

Aturan cookie: Panduan cookie CNIL menetapkan standar teknis tertinggi untuk alat persetujuan di UE. Panduan ini diperbarui secara rutin.

NIR: Pengenal Paling Sensitif Prancis

Numéro d'Inscription au Répertoire (NIR) — juga disebut numéro de sécurité sociale — adalah nomor jaminan sosial Prancis 15 digit.

Formatnya adalah: S AA MM DD CCC OOO K

  • S — 1 digit: jenis kelamin
  • AA — tahun lahir
  • MM — bulan lahir
  • DD — departemen lahir (01–95, 2A/2B untuk Korsika, 97–99 luar negeri, 99 asing)
  • CCC — kode kotamadya
  • OOO — urutan lahir
  • K — kunci cek 2 digit (97 − (NIR mod 97))

NIR menyimpan jenis kelamin, tanggal lahir, dan tempat lahir dalam satu nomor. CNIL memperlakukannya sebagai risiko tinggi. NIR memerlukan perawatan yang sama dengan data kategori khusus berdasarkan Pasal 9 GDPR.

Mengapa alat melewatkan NIR: Alat NLP generik gagal pada NIR karena tiga alasan. Pertama, 15 digit (sering ditulis tanpa spasi) terlihat seperti angka panjang lainnya. Kedua, digit 7–11 menyimpan kode departemen. Alat yang melewatkan pemeriksaan mod-97 membiarkan positif palsu lolos. Ketiga, departemen Korsika menggunakan 2A dan 2B, bukan digit murni. Alat yang dibuat untuk pola hanya-numerik gagal di sini.

Deteksi NIR yang baik membutuhkan tiga hal: pemeriksaan kunci mod-97, buku kode geografis, dan aturan yang sadar Korsika.

Lihat ikhtisar kepatuhan keamanan kami untuk cara cakupan pengenal cocok dalam tumpukan perlindungan GDPR.

SIREN dan SIRET: ID Bisnis dalam File Pribadi

SIREN: ID perusahaan Prancis 9 digit dengan digit cek Luhn. Muncul di semua dokumen komersial Prancis.

SIRET: Nomor 14 digit yang dibangun dari SIREN (9 digit) ditambah kode lokasi (5 digit). SIRET menamai sebuah situs. SIREN menamai perusahaan.

File bisnis sering menyimpan nomor SIRET di samping nama staf. CNIL memperlakukan SIRET ditambah nama sebagai data pribadi. Pasangan itu memicu aturan GDPR bahkan tanpa bidang data pribadi terpisah.

Enam Langkah Anonimisasi untuk Pelatihan AI

Panduan AI CNIL 2024 mencakup enam jenis data. Masing-masing harus ditangani sebelum menggunakan data pribadi Prancis dalam pelatihan AI:

  1. Hapus pengenal langsung — Nama, NIR, SIREN harus diganti atau dihapus
  2. Generalisasi quasi-identifier — Usia, departemen, profesi dapat digabungkan untuk mengidentifikasi ulang orang; kurangi presisinya
  3. Tambahkan noise ke angka — Bidang numerik memerlukan noise yang dikalibrasi untuk memblokir inferensi
  4. Periksa k-anonymity — Setiap orang harus terlihat seperti setidaknya k-1 orang lain; CNIL menunjuk k ≥ 5
  5. Periksa l-diversity — Atribut sensitif harus bervariasi dalam setiap kelompok
  6. Jalankan pemeriksaan risiko re-identifikasi — Gunakan metode yang terdokumentasi sebelum pelepasan data apa pun

Menghapus NIR dan nama lengkap saja tidak cukup. CNIL telah menemukan ini dalam penegakan hukum. Quasi-identifier seperti kode pos dan spesialisasi medis juga memerlukan penanganan.

Panduan kepatuhan GDPR kami mencakup catatan yang diharapkan audit DPA Prancis.

Konteks Bahasa untuk Deteksi PII Prancis

Prancis memiliki beberapa konteks linguistik yang memengaruhi deteksi.

Bahasa Prancis standar adalah bahasa semua dokumen resmi. Model NER harus menangani huruf beraksen: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Wilayah seberang lautan (DOM-TOM): Martinik, Guadeloupe, Réunion, Guyane, dan Mayotte menggunakan kode NIR dalam rentang 97–98. Pola nama lokal berbeda dari Prancis daratan.

Alsace-Moselle: Nama beroriginal Jerman dan beberapa format dokumen Jerman muncul dalam catatan Prancis. Model yang hanya dilatih pada bahasa Prancis standar mungkin melewatkan ini.

Penggunaan lintas batas: Bahasa Prancis Belgia menggunakan format ID yang berbeda. Alat yang digunakan di Prancis dan Belgia memerlukan aturan untuk masing-masing.

Apa yang Harus Dicakup Alat Anda

Kepatuhan Prancis memerlukan empat kemampuan teknis:

  1. NIR dengan pemeriksaan mod-97 — Pencocokan pola saja gagal. Alat harus menjalankan pemeriksaan kunci dan menangani kode 2A/2B.
  2. SIREN/SIRET dengan pemeriksaan Luhn — ID bisnis muncul dalam file pribadi dan menciptakan kombinasi nama yang dilindungi GDPR.
  3. NER bahasa Prancis dengan dukungan aksen penuh — Harus menangani nama majemuk (Jean-Pierre), partikel (de, du, des), dan karakter beraksen.
  4. Proses enam langkah yang terdokumentasi — Pipeline pelatihan AI apa pun pada data Prancis memerlukan catatan tertulis untuk setiap aktivitas anonimisasi.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.