By · Last updated 2026-06-05

Atgal į BlogąGDPR ir Atitiktis

CNIL Prancūzija: DPA ADA įrankių reikalavimai

CNIL 2023 m. išnagrinėjo 16 433 skundus (+43%). 63% CNIL pranešimų nurodo nepakankamą DI anonimizavimą. NIR / Prancūzijos SSN praleido 78% bendrųjų įrankių.

June 5, 20269 min skaityti
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Prancūzija: DPA ADA įrankių reikalavimai

Prancūzijos CNIL yra reikliausias ES duomenų organas. Dauguma ES reguliuotojų rašo plačias taisykles. CNIL eina toliau. Ji skelbia tikslius techninius nurodymus, vadinamus recommandations. Jie nustato tikslus anonimizavimo ir DI duomenų naudojimo standartus.

CNIL pranešimai 2024 m. dažnai nurodė silpną anonimizavimą DI sistemose. Agentūra 2023 m. gavo 16 433 skundus. Tai buvo 43 % daugiau nei 2022 m.

CNIL gairės formuoja ES politiką

CNIL techniniai tekstai plačiai cituojami kitų ES DPA. Dvi gairės yra svarbiausios.

Guide pratique de l'anonymisation (2023): Ši gairė apima k-anonimiškumą, l-įvairovę ir diferencinę privatumą. Ji rodo, kaip kiekvieną metodą taikyti prancūziškiems duomenims. Švedijos IMY ir kiti ES organai ją cituoja savo taisyklėse.

DI sistemų gairės (2024): CNIL išvardija šešis duomenų tipus, kuriuos reikia tvarkyti prieš DI mokymą. Joks kitas ES DPA nenuėjo tiek toli dėl DI.

Slapukų taisyklės: CNIL slapukų gairės nustato aukščiausią techninį standartą sutikimo įrankiams ES. Jos dažnai atnaujinamos.

NIR: Prancūzijos jautriausias identifikatorius

Numero d'Inscription au Repertoire (NIR) - dar vadinamas numero de securite sociale - yra 15 skaitmenų Prancūzijos socialinio draudimo numeris.

Jo formatas: S AA MM DD CCC OOO K

  • S - 1 skaitmuo: lytis
  • AA - gimimo metai
  • MM - gimimo mėnuo
  • DD - gimimo departamentas (01-95, 2A/2B Korsikai, 97-99 užjūrio, 99 užsieniečiams)
  • CCC - savivaldybės kodas
  • OOO - gimimo eiliškumas
  • K - 2 skaitmenų tikrinimo raktas (97 - (NIR mod 97))

NIR vienoje eilutėje apima lytį, gimimo datą ir gimimo vietą. CNIL jį laiko didelės rizikos duomenimis. Jam reikia tokio paties dėmesingumo kaip specialių kategorijų duomenims pagal BDAR 9 straipsnį.

Kodėl įrankiai praleidžia NIR: Bendrieji NLP įrankiai neaptinka NIR dėl trijų priežasčių. Pirma, 15 skaitmenų (dažnai rašomų be tarpų) atrodo kaip kiti ilgi skaičiai. Antra, 7-11 skaitmenys laiko departamento kodą. Įrankiai, praleidžiantys mod-97 tikrinimą, praleidžia klaidingus teigiamus rezultatus. Trečia, Korsikos departamentai naudoja 2A ir 2B, o ne grynuosius skaitmenis. Įrankiai, sukurti tik skaitmeniniams šablonams, čia naudojant klaidingai.

Geras NIR aptikimas reikalauja trijų dalykų: mod-97 rakto tikrinimo, geografinio kodų sąrašo ir Korsikai skirtų taisyklių.

Žr. mūsų saugumo atitikties apžvalgą, kaip identifikatoriaus aprėptis atitinka BDAR apsaugos grupę.

SIREN ir SIRET: verslo ID asmeniniuose failuose

SIREN: 9 skaitmenų Prancūzijos įmonės ID su Luhn tikrinimo skaitmeniu. Jis pasirodo visuose Prancūzijos komerciniuose dokumentuose.

SIRET: 14 skaitmenų numeris, sudarytas iš SIREN (9 skaitmenų) ir įstaigos kodo (5 skaitmenys). SIRET nurodo padalinį. SIREN nurodo įmonę.

Verslo failuose dažnai yra SIRET numeriai šalia darbuotojų vardų. CNIL traktuoja SIRET kartu su vardu kaip asmeninius duomenis. Ta pora suaktyvina BDAR taisykles net be atskiro asmeninių duomenų lauko.

Šeši anonimizavimo žingsniai DI mokymui

CNIL 2024 m. DI gairės apima šešis duomenų tipus. Kiekvieną reikia sutvarkyti prieš naudojant prancūziškus asmeninius įrašus DI mokyme:

  1. Pašalinkite tiesioginius identifikatorius - vardai, NIR, SIREN turi būti pakeisti arba pašalinti
  2. Apibendrintus kvaziidentifikatorius - amžius, departamentas, profesija gali derinti identifikuoti asmenis; sumažinkite jų tikslumą
  3. Pridėkite triukšmą prie skaičių - skaitmeniniuose laukuose reikia kalibruoto triukšmo, kad blokuotų išvadas
  4. Patikrinkite k-anonimiškumą - kiekvienas asmuo turi atrodyti kaip bent k-1 kiti; CNIL nurodo k >= 5
  5. Patikrinkite l-įvairovę - jautrūs atributai turi skirtis kiekvienoje grupėje
  6. Atlikite pakartotinio identifikavimo rizikos tikrinimą - naudokite dokumentuotą metodą prieš bet kokį duomenų paskelbimą

Vardo ir NIR pašalinimas vienas nepakanka. CNIL tai nustatė vykdymo procese. Kvaziidentifikatoriai, tokie kaip pašto kodas ir medicinos specialybė, taip pat reikalauja apdorojimo.

Mūsų BDAR atitikties vadovas apima įrašus, kurių tikisi Prancūzijos DPA auditoriai.

Kalbinis kontekstas prancūziškam ADA aptikimui

Prancūzija turi kelis kalbinius kontekstus, turinčius poveikį aptikimui.

Standartine prancūzų kalba rašyti visi oficialūs dokumentai. NER modeliai turi tvarkyti akcentuotas raides: e su akutu, e su graviutu, e su cirkumfleksu, e su trema, a su graviutu, a su cirkumfleksu, i su cirkumfleksu, o su cirkumfleksu, u su cirkumfleksu, c su cedille, ligatura oe.

Užjūrio teritorijos (DOM-TOM): Martinika, Gvadelupa, Reunjona, Gviana ir Majota naudoja NIR kodus 97-98 diapazone. Vietiniai vardų šablonai skiriasi nuo Prancūzijos žemyno.

Elzasas-Mozelas: Vokiečių kilmės vardai ir kai kurie vokiški dokumentų formatai pasirodo prancūziškuose įrašuose. Modeliai, apmokyti tik su standartine prancūzų kalba, gali praleisti juos.

Tarpvalstybinis naudojimas: Belgijos prancūzų kalba naudoja kitokį ID formatą. Prancūzijoje ir Belgijoje naudojami įrankiai turi turėti kiekvienam taisykles.

Ko turi aprėpti jūsų įrankis

Prancūzijos atitiktis reikalauja keturių techninių gebėjimų:

  1. NIR su mod-97 tikrinimu - šablonų suderinimas vienas nepakankamas. Įrankiai turi paleisti rakto tikrinimą ir tvarkyti 2A/2B kodus.
  2. SIREN/SIRET su Luhn tikrinimu - verslo ID pasirodo asmeniniuose failuose ir sukuria BDAR apimamas vardo kombinacijas.
  3. Prancūzų kalbos NER su visu akcento palaikymu - turi tvarkyti sudėtinius vardus (Jean-Pierre), daleles (de, du, des) ir akcentuotus simbolius.
  4. Dokumentuotas šešių žingsnių procesas - bet kokiam DI mokymo konteinerio kanavimui su prancūziškais duomenimis reikia rašytinio kiekvieno anonimizavimo veiksmo įrašo.

Šaltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.