By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

CNIL France: Mga Kinakailangan ng DPA sa PII Tool

Nagproseso ang CNIL ng 16,433 na reklamo noong 2023 (+43%). 63% ng mga abiso ng CNIL ay nagbanggit ng hindi sapat na AI anonymization. 78% ng mga generic tool ang hindi nakaka-detect ng NIR/French SSN.

June 5, 20269 min basahin
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL France: Mga Kinakailangan ng DPA sa PII Tool

Ang CNIL ng France ay ang pinaka-demanding na katawan ng data ng EU. Karamihan sa mga regulator ng EU ay sumusulat ng malawak na mga panuntunan. Higit pa ang ginagawa ng CNIL. Naglalathala ito ng tiyak na teknikal na gabay na tinatawag na recommandations. Nagtatakda ang mga ito ng eksaktong pamantayan para sa anonymization at paggamit ng data sa AI.

Madalas na binanggit ng mga abiso ng CNIL noong 2024 ang mahinang anonymization sa mga sistema ng AI. Tumanggap ang ahensya ng 16,433 na reklamo noong 2023. 43% iyon na higit kaysa noong 2022.

Humuhumo ang Gabay ng CNIL sa Patakaran ng EU

Malawak na binabanggit ng iba pang EU DPA ang mga teknikal na teksto ng CNIL. Dalawang gabay ang pinakamahalaga.

Guide pratique de l'anonymisation (2023): Sinasaklaw ng gabay na ito ang k-anonymity, l-diversity, at differential privacy. Ipinapakita nito kung paano gamitin ang bawat pamamaraan sa French na data. Binabanggit ito ng IMY ng Sweden at iba pang katawan ng EU sa kanilang sariling mga patakaran.

Gabay sa mga sistema ng AI (2024): Naglilista ang CNIL ng anim na uri ng data na dapat harapin sa AI training. Wala pang ibang EU DPA ang nagpunta nang ganito kalayo sa AI.

Mga panuntunan sa cookie: Nagtatakda ang gabay ng CNIL sa cookie ng pinakamataas na teknikal na pamantayan para sa mga tool ng pahintulot sa EU. Madalas na nina-update ito.

Ang NIR: Pinaka-Sensitibong Identifier ng France

Ang Numero d'Inscription au Repertoire (NIR) — tinatawag ding numero de securite sociale — ay isang 15-digit na French social security number.

Ang format nito ay: S AA MM DD CCC OOO K

  • S — 1 digit: kasarian
  • AA — taon ng kapanganakan
  • MM — buwan ng kapanganakan
  • DD — departamento ng kapanganakan (01-95, 2A/2B para sa Corsica, 97-99 overseas, 99 dayuhan)
  • CCC — code ng munisipalidad
  • OOO — pagkakasunud-sunod ng kapanganakan
  • K — 2-digit na check key (97 - (NIR mod 97))

Naglalaman ang NIR ng kasarian, petsa ng kapanganakan, at lugar ng kapanganakan sa isang numero. Tinatrato ito ng CNIL bilang mataas na panganib. Kailangan nito ng parehong pag-iingat tulad ng special-category na data sa ilalim ng GDPR Article 9.

Bakit nami-miss ng mga tool ang NIR: Nabibigo ang mga generic na NLP tool sa NIR sa tatlong dahilan. Una, ang 15 digit (madalas na isinulat nang walang puwang) ay kamukha ng iba pang mahabang numero. Pangalawa, ang mga digit 7-11 ay nagtatago ng department code. Ang mga tool na lumalaktaw sa mod-97 check ay nagpapasa ng mga false positive. Pangatlo, gumagamit ang mga departamento ng Corsica ng 2A at 2B, hindi purong digit. Nabibigo ang mga tool na ginawa para sa mga pattern na numeric lamang dito.

Tatlong bagay ang kailangan ng mahusay na pag-detect ng NIR: mod-97 key check, isang geographic codebook, at mga panuntunan na Corsica-aware.

Tingnan ang aming pangkalahatang-ideya ng pagsunod sa seguridad para sa paraan ng pagsasama ng saklaw ng identifier sa isang GDPR safeguard stack.

SIREN at SIRET: Mga Business ID sa Mga Personal na File

SIREN: Isang 9-digit na French company ID na may Luhn check digit. Lumalabas ito sa lahat ng French na komersyal na dokumento.

SIRET: Isang 14-digit na numero na binuo mula sa SIREN (9 digit) kasama ang establishment code (5 digit). Pinangalanan ng SIRET ang isang site. Pinangalanan ng SIREN ang kumpanya.

Madalas na nagtatago ang mga business file ng mga numero ng SIRET sa tabi ng mga pangalan ng kawani. Tinatrato ng CNIL ang SIRET kasama ang isang pangalan bilang personal na data. Nag-ti-trigger ang pares na iyon ng mga panuntunan ng GDPR kahit walang hiwalay na field ng personal na data.

Anim na Hakbang sa Anonymization para sa AI Training

Sinasaklaw ng gabay ng CNIL sa AI noong 2024 ang anim na uri ng data. Bawat isa ay dapat harapin bago gamitin ang mga French na personal na rekord sa AI training:

  1. Alisin ang mga direktang identifier — Ang mga pangalan, NIR, SIREN ay dapat palitan o alisin
  2. Gawing pangkalahatan ang mga quasi-identifier — Maaaring pagsamahin ang edad, departamento, propesyon para ma-re-identify ang mga tao; bawasan ang kanilang katumpakan
  3. Magdagdag ng ingay sa mga numero — Ang mga numerong field ay nangangailangan ng calibrated na ingay para harangan ang inference
  4. Suriin ang k-anonymity — Bawat tao ay dapat magmukhang hindi bababa sa k-1 iba; tinuturo ng CNIL sa k >= 5
  5. Suriin ang l-diversity — Ang mga sensitibong katangian ay dapat mag-iba sa loob ng bawat grupo
  6. Magpatakbo ng re-identification risk check — Gumamit ng dokumentadong pamamaraan bago ang anumang paglalabas ng data

Ang pag-alis ng NIR at buong pangalan lamang ay hindi sapat. Natuklasan ito ng CNIL sa pagpapatupad. Ang mga quasi-identifier tulad ng ZIP code at medikal na espesyalidad ay nangangailangan din ng paggamot.

Sinasaklaw ng aming gabay sa pagsunod sa GDPR ang mga rekord na inaasahan ng French DPA audit.

Konteksto ng Wika para sa Pag-detect ng French na PII

May ilang linguistic na konteksto ang France na nakakaapekto sa pag-detect.

Standard na French ang wika ng lahat ng opisyal na dokumento. Dapat hawakan ng mga NLP model ang mga letrang may accent: e, e, e, e, a, a, i, o, u, c, oe.

Mga overseas na teritoryo (DOM-TOM): Gumagamit ang Martinique, Guadeloupe, Reunion, Guyane, at Mayotte ng mga NIR code sa hanay na 97-98. Naiiba ang mga lokal na pattern ng pangalan mula sa mainland France.

Alsace-Moselle: Lumalabas ang mga pangalang may pinagmulan sa Aleman at ilang format ng German na dokumento sa mga French na rekord. Maaaring mapalampas ng mga modelo na sinanay sa standard na French lamang ang mga ito.

Cross-border na paggamit: Gumagamit ang Belgian French ng ibang format ng ID. Ang mga tool na ginagamit sa France at Belgium ay nangangailangan ng mga panuntunan para sa bawat isa.

Ano ang Dapat Saklawin ng Iyong Tool

Ang French compliance ay nangangailangan ng apat na teknikal na kakayahan:

  1. NIR na may mod-97 check — Nabibigo ang pattern matching lamang. Dapat patakbuhin ng mga tool ang key check at hawakan ang mga code na 2A/2B.
  2. SIREN/SIRET na may Luhn check — Lumalabas ang mga business ID sa mga personal na file at lumilikha ng mga kombinasyon ng pangalan na saklaw ng GDPR.
  3. French NER na may buong suporta sa accent — Dapat hawakan ang mga compound name (Jean-Pierre), particles (de, du, des), at mga character na may accent.
  4. Dokumentadong proseso ng anim na hakbang — Ang anumang pipeline ng AI training sa French na data ay nangangailangan ng nakasulat na rekord para sa bawat aktibidad ng anonymization.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.