By · Last updated 2026-06-05

Torna al BlogGDPR e Conformità

CNIL Francia: Requisiti Tecnici per gli Strumenti PII

La CNIL ha gestito 16.433 reclami nel 2023 (+43%). Il 63% dei provvedimenti CNIL cita l'anonimizzazione AI inadeguata. Il NIR/SSN francese viene mancato dal 78% degli strumenti generici.

June 5, 20269 min di lettura
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Francia: Requisiti Tecnici per gli Strumenti PII

La CNIL francese è l'autorità per i dati più esigente dell'UE. La maggior parte dei regolatori europei emana norme di carattere generale. La CNIL va oltre: pubblica orientamenti tecnici precisi chiamati recommandations, che stabiliscono standard esatti per l'anonimizzazione e l'uso dei dati nell'AI.

I provvedimenti CNIL del 2024 hanno spesso citato un'anonimizzazione insufficiente nei sistemi AI. L'autorità ha ricevuto 16.433 reclami nel 2023, con un aumento del 43% rispetto al 2022.

Le Linee Guida CNIL Orientano la Politica Europea

I documenti tecnici della CNIL sono ampiamente citati dalle altre autorità di protezione dei dati europee. Due guide sono particolarmente rilevanti.

Guide pratique de l'anonymisation (2023): Questa guida tratta k-anonimato, l-diversity e privacy differenziale, illustrando come applicare ciascun metodo ai dati francesi. L'autorità svedese IMY e altre autorità europee vi fanno riferimento nelle proprie norme.

Linee guida sui sistemi AI (2024): La CNIL elenca sei tipologie di dati da gestire nell'addestramento AI. Nessun'altra autorità europea si è spinta così in là sull'AI.

Regole sui cookie: Le linee guida sui cookie della CNIL fissano il più alto standard tecnico per gli strumenti di consenso nell'UE e vengono aggiornate frequentemente.

Il NIR: l'Identificatore Più Sensibile in Francia

Il Numéro d'Inscription au Répertoire (NIR) — detto anche numéro de sécurité sociale — è il numero di previdenza sociale francese a 15 cifre.

Il suo formato è: S AA MM DD CCC OOO K

  • S — 1 cifra: sesso
  • AA — anno di nascita
  • MM — mese di nascita
  • DD — dipartimento di nascita (01–95, 2A/2B per la Corsica, 97–99 territori d'oltremare, 99 stranieri)
  • CCC — codice comune
  • OOO — ordine di nascita
  • K — chiave di controllo a 2 cifre (97 − (NIR mod 97))

Il NIR racchiude in un unico numero sesso, data di nascita e luogo di nascita. La CNIL lo tratta come dato ad alto rischio, che richiede le stesse cautele previste per i dati di categoria speciale ai sensi dell'Articolo 9 del GDPR.

Perché gli strumenti mancano il NIR: Gli strumenti NLP generici falliscono sul NIR per tre ragioni. Prima: le 15 cifre (spesso scritte senza separatori) assomigliano ad altri numeri lunghi. Seconda: le cifre 7–11 contengono un codice dipartimentale; gli strumenti che saltano la verifica mod-97 ammettono falsi positivi. Terza: i dipartimenti della Corsica usano 2A e 2B, non cifre pure; gli strumenti progettati per pattern solo numerici falliscono in questi casi.

Un buon rilevamento del NIR richiede tre elementi: verifica della chiave mod-97, un codebook geografico e regole specifiche per la Corsica.

Vedere la nostra panoramica sulla conformità alla sicurezza per capire come la copertura degli identificatori si inserisce in uno stack di salvaguardie GDPR.

SIREN e SIRET: Identificatori Aziendali nei Fascicoli Personali

SIREN: Codice aziendale francese a 9 cifre con una cifra di controllo Luhn. Compare in tutti i documenti commerciali francesi.

SIRET: Numero a 14 cifre composto dal SIREN (9 cifre) più un codice di stabilimento (5 cifre). Il SIRET identifica una sede; il SIREN identifica l'azienda.

I fascicoli aziendali contengono spesso numeri SIRET accanto ai nomi del personale. La CNIL tratta SIRET più nome come dato personale: questa combinazione attiva le norme GDPR anche in assenza di un campo dedicato ai dati personali.

Sei Fasi di Anonimizzazione per l'Addestramento AI

Le linee guida AI 2024 della CNIL riguardano sei tipologie di dati. Ciascuna deve essere gestita prima di utilizzare dati personali francesi nell'addestramento AI:

  1. Rimuovere gli identificatori diretti — Nomi, NIR e SIREN devono essere sostituiti o eliminati
  2. Generalizzare i quasi-identificatori — Età, dipartimento e professione possono combinarsi per re-identificare le persone; ridurne la precisione
  3. Aggiungere rumore ai valori numerici — I campi numerici richiedono rumore calibrato per bloccare l'inferenza
  4. Verificare il k-anonimato — Ogni persona deve sembrare uguale ad almeno altri k-1; la CNIL indica k ≥ 5
  5. Verificare la l-diversity — Gli attributi sensibili devono variare all'interno di ogni gruppo
  6. Eseguire una verifica del rischio di re-identificazione — Utilizzare un metodo documentato prima di qualsiasi rilascio di dati

Rimuovere NIR e nome completo da soli non è sufficiente: la CNIL lo ha accertato in sede di enforcement. Anche i quasi-identificatori come il codice postale e la specializzazione medica necessitano di trattamento.

La nostra guida alla conformità GDPR illustra i registri che le autorità francesi si aspettano di trovare in un audit.

Contesto Linguistico per il Rilevamento PII in Francese

La Francia presenta diversi contesti linguistici che influenzano il rilevamento.

Il francese standard è la lingua di tutti i documenti ufficiali. I modelli NER devono gestire le lettere accentate: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Territori d'oltremare (DOM-TOM): Martinica, Guadalupa, Riunione, Guyana e Mayotte utilizzano codici NIR nell'intervallo 97–98. I pattern dei nomi locali differiscono dalla Francia continentale.

Alsazia-Mosella: Nei documenti francesi compaiono nomi di origine tedesca e alcuni formati documentali tedeschi. I modelli addestrati solo sul francese standard possono non riconoscerli.

Uso transfrontaliero: Il francese belga utilizza un formato di identificazione diverso. Gli strumenti usati in Francia e Belgio necessitano di regole specifiche per ciascun paese.

Cosa Deve Coprire il Tuo Strumento

La conformità francese richiede quattro capacità tecniche:

  1. NIR con verifica mod-97 — Il semplice pattern matching non è sufficiente. Gli strumenti devono eseguire la verifica della chiave e gestire i codici 2A/2B.
  2. SIREN/SIRET con verifica Luhn — Gli identificatori aziendali compaiono nei fascicoli personali e creano combinazioni coperte dal GDPR.
  3. NER francese con supporto completo degli accenti — Deve gestire nomi composti (Jean-Pierre), particelle (de, du, des) e caratteri accentati.
  4. Processo documentato in sei fasi — Qualsiasi pipeline di addestramento AI su dati francesi richiede una registrazione scritta di ciascuna attività di anonimizzazione.

Fonti

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.