By · Last updated 2026-06-05

Tagasi BlogisseGDPR ja Vastavus

CNIL Prantsusmaa: andmekaitseasutuse PII tööriistade nõuded

CNIL menetles 2023. aastal 16 433 kaebust (+43%). 63% CNIL teadetest viitab ebapiisavale AI anonümiseerimisele. NIR/Prantsuse sotsiaalkindlustuse number jääb 78% üldtööriistade eest märkamata.

June 5, 20269 min lugemist
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Prantsusmaa: andmekaitseasutuse PII tööriistade nõuded

Prantsusmaa CNIL on EL-i nõudlikem andmekaitseorgan. Enamik EL-i regulaatoreid kirjutab laiu reegleid. CNIL läheb kaugemale. See avaldab täpseid tehnilisi juhiseid, mida nimetatakse recommandations. Need seavad täpsed standardid anonümiseerimisele ja AI andmekasutusele.

CNIL teated 2024. aastal viitasid sageli nõrgale anonümiseerimisele AI süsteemides. Asutus võttis 2023. aastal vastu 16 433 kaebust. See oli 43% rohkem kui 2022. aastal.

CNIL juhised kujundavad EL-i poliitikat

CNIL tehnilised tekstid on laialdaselt tsiteeritud teiste EL-i andmekaitseasutuste poolt. Kaks juhendit on kõige olulisemad.

Guide pratique de l'anonymisation (2023): See juhend hõlmab k-anonüümsust, l-mitmekesisust ja diferentsiaalset privaatsust. See näitab, kuidas kasutada iga meetodit prantsuse andmetel. Rootsi IMY ja teised EL-i organid tsiteerivad seda oma reeglites.

AI süsteemide juhend (2024): CNIL loetleb kuus andmetüüpi, millega tuleb AI treeningus tegeleda. Ükski teine EL-i andmekaitseasutus pole AI puhul nii kaugele läinud.

Kuksiste reeglid: CNIL-i küpsiste juhend seab kõrgeima tehnilise lati nõusoleku tööriistadele EL-is. Seda uuendatakse sageli.

NIR: Prantsusmaa kõige tundlikum identifikaator

Numero d'Inscription au Repertoire (NIR) - tuntud ka kui numero de securite sociale - on 15-kohaline Prantsuse sotsiaalkindlustusnumber.

Selle formaat on: S AA MM DD CCC OOO K

  • S - 1 number: sugu
  • AA - sünnikuu aasta
  • MM - sünnikuu
  • DD - sünnimaakond (01-95, 2A/2B Korsika puhul, 97-99 ülemereterritooriumid, 99 välismaal)
  • CCC - omavalitsuse kood
  • OOO - sünnikord
  • K - 2-kohaline kontrollvõti (97 - (NIR mod 97))

NIR sisaldab ühes numbris sugu, sünnikuupäeva ja sünnikohta. CNIL käsitleb seda kõrge riskiga andmena. See vajab sama hoolsust kui GDPR artikli 9 alusel eriliigilised andmed.

Miks tööriistad NIR-i miskavad: Üldotstarbeline NLP tarvara ei suuda NIR-i tuvastada kolmel põhjusel. Esiteks näevad 15 numbrit (sageli ilma tühikuteta kirjutatud) välja nagu muud pikad numbrid. Teiseks sisaldavad numbrid 7-11 maakonna koodi. Tööriistad, mis jätavad mod-97 kontrollimise vahele, lasevad valepositiivsed läbi. Kolmandaks kasutavad Korsika maakonnad 2A ja 2B, mitte puhtnumbreid. Tööriistad, mis on ehitatud ainult numbriliste mustrite jaoks, ebaõnnestuvad siin.

Hea NIR tuvastamine vajab kolme asja: mod-97 võtme kontrolli, geograafilist kooderaamatut ja Korsika-teadlikke reegleid.

Vaadake meie turvalisuse vastavuse ülevaadet, kuidas identifikaatorite katvus sobib GDPR-i kaitsemeetmete paketti.

SIREN ja SIRET: ettevõtte ID-d isikutoimikutes

SIREN: 9-kohaline Prantsuse ettevõtte ID Luhni kontrollnumbriga. See esineb kõigis Prantsuse äridokumentides.

SIRET: 14-kohaline number, mis koosneb SIREN-ist (9 numbrit) pluss asukoha koodist (5 numbrit). SIRET nimetab asukoha. SIREN nimetab ettevõtte.

Äritoimikud sisaldavad sageli SIRET numbreid koos töötajate nimedega. CNIL käsitleb SIRET-i pluss nimi isikuandmetena. See paar käivitab GDPR-i reeglid isegi ilma eraldi isikuandmete väljata.

Kuus anonümiseerimissammu AI treenimiseks

CNIL-i 2024. aasta AI juhend hõlmab kuut andmetüüpi. Iga tüübiga tuleb tegeleda enne Prantsuse isikuandmete kasutamist AI treeningus:

  1. Eemalda otsesed identifikaatorid - nimed, NIR, SIREN tuleb asendada või eemaldada
  2. Generaliseeri kvaasi-identifikaatorid - vanus, maakond, amet võivad koos inimesi tuvastada; vähenda nende täpsust
  3. Lisa müra numbritele - numbrilistele väljadele on vaja kalibreeritud müra järelduste blokeerimiseks
  4. Kontrolli k-anonüümsust - iga inimene peab nägema välja nagu vähemalt k-1 teist; CNIL viitab k>=5
  5. Kontrolli l-mitmekesisust - tundlikud atribuudid peavad igas rühmas varieeruma
  6. Käivita taasidentifitseerimise riskikontroll - kasuta dokumenteeritud meetodit enne andmete avaldamist

Ainult NIR-i ja täisnime eemaldamine ei piisa. CNIL on seda jõustamisel leidnud. Kvaasi-identifikaatorid nagu postiindeks ja meditsiinieriala vajavad samuti töötlemist.

Meie GDPR vastavuse juhend hõlmab dokumente, mida Prantsuse andmekaitseasutuse auditid ootavad.

Prantsuse PII tuvastamise keelekontekst

Prantsusmaal on mitu keelekonteksti, mis mõjutavad tuvastamist.

Standardne prantsuse keel on kõigi ametlike dokumentide keel. NER mudelid peavad käsitlema rõhumärkidega tähti: e, e, e, e, a, a, i, o, u, c, oe.

Ülemereterritooriumid (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane ja Mayotte kasutavad NIR koode vahemikus 97-98. Kohalikud nimemustrid erinevad Prantsusmaa mandriosa omadest.

Alsace-Moselle: Saksa päritolu nimed ja mõned saksa dokumendi formaadid esinevad Prantsuse aktidel. Ainult standard-prantsuse keelel treenitud mudelid võivad need vahele jätta.

Piiriulene kasutus: Belgia prantsuse keel kasutab erinevat ID formaati. Prantsumaal ja Belgias kasutatavad tööriistad vajavad reegleid mõlema jaoks.

Mida teie tööriist peab katma

Prantsuse vastavus nõuab nelja tehnilist võimekust:

  1. NIR mod-97 kontrolliga - mustrite sobitamine üksi ebaõnnestub. Tööriistad peavad käivitama võtme kontrolli ja käsitlema 2A/2B koode.
  2. SIREN/SIRET Luhni kontrolliga - ettevõtte ID-d esinevad isikutoimikutes ja loovad GDPR-iga hõlmatud nimekombinatsioone.
  3. Prantsuse NER täieliku rõhumärgi toega - peab käsitlema liitnimesid (Jean-Pierre), osiseid (de, du, des) ja rõhumärkidega tähti.
  4. Dokumenteeritud kuueastmeline protsess - iga AI treeningu konveier prantsuse andmetel vajab kirjalikku aruannet iga anonümiseerimistegevuse kohta.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.