By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

CNIL France: Teknikal na Compliance sa GDPR

Nagproseso ang CNIL ng 16,433 na reklamo noong 2023 at nagmulta ng higit sa 150M euro mula nang 2019. Ang gabay nito sa AI ay nag-uutos ng dokumentadong anonymization para sa training data.

June 5, 20267 min basahin
CNIL FranceFrench GDPRAI anonymizationFrench data protectionprivacy by design

CNIL France: Teknikal na Compliance sa GDPR

Ang Pinaka-Mahigpit na Regulator ng Privacy ng France

Ang katawan ng data ng France ay ang CNIL. Nagtatakda ito ng pinaka-eksaktong mga panuntunan sa privacy ng EU. Karamihan sa mga regulator ng EU ay sumusulat ng malawak na gabay. Higit pa ang ginagawa ng CNIL. Naglalathala ito ng tiyak na mga teknikal na spec na tinatawag na recommandations. Tinutukoy ng mga ito kung ano ang hitsura ng tunay na GDPR compliance.

Madalas na kinokopya ng ibang mga regulator ng EU ang gawa ng CNIL. Kasama sa mga pangunahing teksto ang 2023 Guide pratique de l'anonymisation at ang 2024 na gabay sa AI.

Ipinakikita ng mga numero na aktibo ang ahensya. Humawak ito ng 16,433 na reklamo noong 2023. Iyon ay 43% na higit pa kaysa noong 2022. Naglabas ito ng humigit-kumulang 150 milyong euro sa mga multa ng GDPR mula nang magsimula ang enforcement.

AI Training: Anim na Uri ng Rekord na Dapat Linisin

Malawak ang saklaw ng 2024 na gabay sa AI ng CNIL. Sumasaklaw ito sa anumang grupo na nagsu-train ng AI sa mga personal na rekord ng France. Nalalapat din ito sa mga naglilingkod sa mga user ng France na may mga tool sa AI.

Ininilista ng ahensya ang anim na uri ng rekord na kailangang linisin bago ang AI training:

  1. Identifiants directs (mga direktang ID): Mga pangalan, address, numero ng ID. Alisin o palitan ang mga ito bago mag-training.
  2. Identifiants quasi-directs (quasi-ID): Mga grupo ng katangian na nagbibigay-daan sa muling pagkilala. Mag-apply ng mga tseke ng k-anonymity.
  3. Donnees sensibles (mga espesyal na uri): Mga rekord ng kalusugan, biometric, political, at pananampalataya. Ihiwalay na may mga karagdagang kontrol.
  4. Donnees comportementales (mga rekord ng paggamit): Kasaysayan ng pag-browse at mga pattern ng paggamit. I-aggregate o i-mask ang mga ito.
  5. Donnees inferees (mga inferred na katangian): Mga signal na nagmula sa AI mula sa paggamit. Mag-apply ng mga limitasyon sa layunin.
  6. Donnees relatives aux mineurs (mga rekord ng bata): Anumang rekord na naka-link sa mga taong wala pang 15 taong gulang. Magpatakbo ng mga tseke ng edad at gumamit ng malakas na paglilinis.

Gumagamit ng mga LLM na na-train sa scraped na nilalaman? Kailangan mo ng nakasulat na patunay. Ipakita na ang iyong mga rekord ng training ay nasuri at nalinis. Tingnan ang aming gabay sa GDPR compliance para sa mga detalye ng saklaw.

Ang Gabay sa Anonymization: Mga Pangunahing Panuntunan

Ang gabay ng 2023 ay ang pinaka-detalyadong teksto ng EU sa paksang ito. Nagtatakda ito ng bar para sa kung ano ang tunay na anonymous.

Mga aprubadong teknik:

  • k-anonymity — ang bawat rekord ay parang kahit k-1 pang iba
  • l-diversity — nag-iiba ang mga sensitibong katangian sa loob ng bawat grupo
  • Differential privacy — ingay na idinagdag sa mga output na istatistika
  • Pseudonymization — isang hakbang ng pagbabawas ng panganib, hindi tunay na anonymization

Mga kinakailangang rekord:

Para sa bawat aktibidad na gumagamit ng paglilinis, inaasahan ng CNIL ang isang fiche d'anonymisation (rekord ng anonymization). Dapat itong isama:

  • Ang ginamit na teknik at ang mga pangunahing setting nito (k value, epsilon value)
  • Ang resulta ng tseke ng panganib ng muling pagkilala
  • Ang paraan ng pagpapatunay (pagsubok o panlabas na pagsusuri)
  • Ang taong responsable at ang petsa ng pagsusuri

Tseke ng panganib ng muling pagkilala:

Bago markahan ang mga rekord bilang anonymous, magpatakbo ng pormal na tseke. Itanong: maaari bang muling makilala ng isang motivated na tao ito? Tingnan kung anong mga auxiliary na dataset ang umiiral. Isaalang-alang ang buong konteksto.

French PII: Ano ang Dapat Mahanap ng Iyong Mga Tool

Nangangailangan ang mga panuntunan ng France ng coverage ng PII sa wikang Pranses. Ang iyong mga tool ay dapat makita ang mga uri ng ID na tiyak sa France.

Mga pangunahing ID na dapat saklawin:

  • NIR: 15 digit (13 base + 2-digit na key). Ito ang French Social Security Number.
  • Numero ng carte vitale: ID ng health insurance card.
  • SIRET/SIREN: Mga business ID na makikita sa mga personal na file.
  • Numero d'ordre professionnel: Mga numero ng rehistro para sa mga doktor, abogado, at accountant.
  • CNI (Carte nationale d'identite): Numero ng French national ID card.

Ang mga French NER model ay dapat humawak ng mga pattern ng pangalang Pranses. Kasama rito ang mga compound na pangalan (Jean-Pierre), mga particle (de, du, des), at mga hyphenated na apelyido. Tingnan ang aming multilingual na gabay sa PII detection para sa kung paano saklawin ang lahat ng locale.

Enforcement: Ano ang Naiilawan ng Multa

Sumusunod ang mga multa ng ahensya sa isang malinaw na pattern. Tina-target ang mga nawawalang teknikal na kontrol. Ang mahinang proseso lamang ay bihirang ang pangunahing isyu.

Clearview AI — 20M euro na multa (2022): Pinroseso ng kumpanya ang mga biometric na rekord ng mga Pranses nang walang legal na batayan. Ang mga rekord ay na-scrape mula sa mga pampublikong mapagkukunan sa web. Kinumpirma ng kaso: ang bulk web-scraping para sa AI training ay nangangailangan ng isang explicit na legal na batayan.

TikTok — inilunsad ang imbestigasyon noong 2024: Nakatuon sa mga sistema na maaaring mag-infer ng mga sensitibong uri mula sa mga signal ng paggamit. Ang pamamaraang ito ay ngayon ang sanggunian ng EU para sa mga AI audit.

Generative AI review (2024-2025): Sinuri ng ahensya ang mga vendor ng LLM sa France. Nakatuon ito sa provenance ng nilalaman ng training. Ang mga vendor na walang wastong rekord ay kailangang magdagdag ng mga kontrol.

Apat na Hakbang para sa CNIL Compliance

Humahawak ng mga personal na rekord ng France? Kailangan mo ng apat na bagay na nakalagay.

1. Isang rekord ng anonymization para sa bawat aktibidad

Bawat aktibidad na gumagamit ng paglilinis ay nangangailangan ng sarili nitong rekord. Itala ang teknik, ang mga setting nito, isang resulta ng panganib, at isang petsa ng pagsusuri.

2. Mga pre-processing log para sa AI

I-log kung aling tool sa PII detection ang ginamit mo. Itala kung anong mga uri ng entity ang natagpuan nito. Itala kung ano ang inalis o na-mask. Panatilihing handa ang mga log na ito para sa mga audit.

3. Coverage ng PII sa wikang Pranses

Suriin na natutuklasan ng iyong tool ang mga numero ng NIR, carte vitale, at CNI. Subukan ang iyong French NER model sa mga tunay na pangalang Pranses. Itala ang anumang puwang. Itala ang mga kontrol na inilagay mo upang harapin ang mga ito.

4. Mga rekord ng provenance para sa nilalaman ng training

Para sa scraped na nilalaman: idokumento ang tseke ng paglilinis ng pinagmulan. Para sa mga rekord ng user: idokumento ang proseso ng paglilinis ng user. Ang aming pangkalahatang-ideya ng security compliance ay nagpapakita kung paano akma ito sa mas malawak na stack ng pananggalang.

Mabilis na dumadaan sa mga audit ang mga grupo na may magandang rekord. Bumuo ng iyong file ngayon. Huwag maghintay sa isang inspeksyon bago magsimula.

Mga Sanggunian

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.