By · Last updated 2026-06-05

Tornar al BlogGDPR i Compliment

CNIL de Franca: Requisits Tecnics de l'Autoritat de Proteccio de Dades

La CNIL va processar 16.433 reclamacions el 2023 (+43%). El 63% de les resolucions de la CNIL citen anonimitzacio d'IA inadequada. El NIR/numero de seguretat social frances s'escapa al 78% de les eines generiques.

June 5, 20269 min llegit
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL de Franca: Requisits Tecnics de l'Autoritat de Proteccio de Dades

La CNIL francesa es l'organisme de dades mes exigent de la UE. La majoria de reguladors europeus escriuen normes amples. La CNIL va mes lluny. Publica orientacions tecniques precises anomenades recommandations. Aquestes estableixen estandards exactes per a l'anonimitzacio i l'us de dades en IA.

Les resolucions de la CNIL del 2024 sovint citaven una anonimitzacio feble en sistemes d'IA. L'agencia va rebre 16.433 reclamacions el 2023, un 43% mes que el 2022.

L'orientacio de la CNIL modela la politica de la UE

Els textos tecnics de la CNIL son molt citats per altres autoritats de proteccio de dades de la UE. Dos guies son especialment importants.

Guide pratique de l'anonymisation (2023): Aquesta guia cobreix k-anonymity, l-diversity i privadesa diferencial. Mostra com aplicar cada metode a dades franceses. L'IMY sueca i altres organismes de la UE la citen en les seves propies normes.

Orientacio sobre sistemes d'IA (2024): La CNIL llista sis tipus de dades que s'han de tractar en l'entrenament d'IA. Cap altre organisme de proteccio de dades de la UE ha anat tan lluny en materia d'IA.

Normes de cookies: L'orientacio de la CNIL sobre cookies estableix el llistro tecnic mes alt per a les eines de consentiment a la UE. S'actualitza sovint.

El NIR: l'identificador frances mes sensible

El Numero d'Inscripcio al Repertori (NIR), tambe anomenat numero de seguretat social, es un numero de seguretat social frances de 15 digits.

El seu format es: S AA MM DD CCC OOO K

  • S - 1 digit: sexe
  • AA - any de naixement
  • MM - mes de naixement
  • DD - departament de naixement (01-95, 2A/2B per a Corsega, 97-99 ultramar, 99 estranger)
  • CCC - codi de municipi
  • OOO - ordre de naixement
  • K - clau de control de 2 digits (97 - (NIR mod 97))

El NIR inclou el sexe, la data de naixement i el lloc de naixement en un sol numero. La CNIL el considera d'alt risc. Necessita la mateixa atencio que les dades de categoria especial de l'article 9 del GDPR.

Per que les eines no detecten el NIR: Les eines NLP generiques fallen amb el NIR per tres raons. Primera, els 15 digits (sovint escrits sense espais) s'assemblen a altres numeros llargs. Segona, els digits 7-11 contenen un codi de departament. Les eines que salten la comprovacio mod-97 deixen passar falsos positius. Tercera, els departaments corsos usen 2A i 2B, no digits purs. Les eines construides per a patrons nomes numerics fallen aqui.

Una bona deteccio del NIR necessita tres elements: comprovacio de la clau mod-97, un codebook geografic i normes especifiques per a Corsega.

Vegeu el nostre resum de compliment de seguretat per saber com s'enquadra la cobertura d'identificadors en una pila de salvaguardes GDPR.

SIREN i SIRET: identificadors d'empresa en arxius personals

SIREN: Identificador d'empresa frances de 9 digits amb un digit de control Luhn. Apareix en tots els documents comercials francesos.

SIRET: Numero de 14 digits format pel SIREN (9 digits) mes un codi d'establiment (5 digits). El SIRET identifica un centre. El SIREN identifica l'empresa.

Els arxius d'empresa sovint contenen numeros SIRET al costat de noms de treballadors. La CNIL tracta el SIRET mes un nom com a dades personals. Aquest parell activa les normes del GDPR fins i tot sense cap camp de dades personals separat.

Sis passos d'anonimitzacio per a l'entrenament d'IA

L'orientacio d'IA del 2024 de la CNIL cobreix sis tipus de dades. Cadascun s'ha de tractar abans d'usar registres personals francesos en l'entrenament d'IA:

  1. Eliminar els identificadors directes - Noms, NIR, SIREN s'han de reemplazar o eliminar
  2. Generalitzar els quasi-identificadors - Edat, departament i professio poden combinar-se per reidentificar persones; reduiu-ne la precisio
  3. Afegir soroll als numeros - Els camps numerics necessiten soroll calibrat per bloquejar la inferencia
  4. Comprovar la k-anonimitat - Cada persona ha de semblar almenys com k-1 altres; la CNIL apunta a k >= 5
  5. Comprovar la l-diversitat - Els atributs sensibles han de variar dins de cada grup
  6. Executar una comprovacio de risc de reidentificacio - Useu un metode documentat abans de qualsevol publicacio de dades

Eliminar el NIR i el nom complet sol no es suficient. La CNIL ho ha constatat en la seva activitat sancionadora. Quasi-identificadors com el codi postal i l'especialitat medica tambe necessiten tractament.

La nostra guia de compliment GDPR cobreix els registres que les auditories de l'autoritat de proteccio de dades francesa esperen veure.

Context linguistic per a la deteccio de PII en frances

Franca presenta diversos contextos linguistics que afecten la deteccio.

El frances estandard es la llengua de tots els documents oficials. Els models NER han de gestionar les lletres accentuades: e, e, e, e, a, a, i, o, u, c, oe.

Territoris d'ultramar (DOM-TOM): Martinica, Guadalupe, Reunio, Guaiana i Mayotte usen codis NIR en el rang 97-98. Els patrons de noms locals difereixen de la Franca continental.

Alsacia-Mosela: Els noms d'origen alemany i alguns formats de document alemanys apareixen en registres francesos. Els models entrenats nomes en frances estandard poden passar-los per alt.

Us transfronterer: El frances belga utilitza un format d'identificacio diferent. Les eines usades a Franca i Belgica necessiten normes per a cada pais.

Que ha de cobrir la vostra eina

El compliment frances requereix quatre capacitats tecniques:

  1. NIR amb comprovacio mod-97 - La coincidencia de patrons sola falla. Les eines han d'executar la comprovacio de clau i gestionar els codis 2A/2B.
  2. SIREN/SIRET amb comprovacio Luhn - Els identificadors d'empresa apareixen en arxius personals i creen combinacions de noms cobertes pel GDPR.
  3. NER en frances amb suport complet d'accentuacio - Ha de gestionar noms compostos (Jean-Pierre), particules (de, du, des) i caracters accentuats.
  4. Process documentat en sis passos - Qualsevol pipeline d'entrenament d'IA amb dades franceses necessita un registre escrit per a cada activitat d'anonimitzacio.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.