By · Last updated 2026-06-05

Til baka á BloggGDPR & Samræmi

CNIL Frakkland: Tæknilegar kröfur DPA um PII-verkfæri

CNIL afgreiddi 16.433 kvartanir árið 2023 (+43%). 63% CNIL-ábendinga tilgreina ófullnægjandi nafnleynd gervigreindar. NIR/frakkneski kennitalan missist af 78% almennra verkfæra.

June 5, 20269 mín lestur
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Frakkland: Tæknilegar kröfur DPA um PII-verkfæri

CNIL Frakklands er krefjandasta gagnastofnun ESB. Flestar ESB-stofnanir skrifa víðar reglur. CNIL fer lengra. Hún gefur út nákvæmar tæknilegar leiðbeiningar sem kallast recommandations. Þær setja nákvæmar staðlar fyrir nafnleynd og notkun gervigreindargagna.

CNIL-ábendingar 2024 vísuðu oft til veikrar nafnleyndar í gervigreindarkerfum. Stofnunin tók við 16.433 kvörtunum árið 2023. Þetta var 43% fleiri en árið 2022.

CNIL-leiðbeiningar móta ESB-stefnu

Tæknilegar textar CNIL eru víða tilvitnuð af öðrum ESB DPA. Tvær handbækur skipta mestu máli.

Guide pratique de l'anonymisation (2023): Þessi handbók nær yfir k-nafnleynd, l-fjölbreytni og mismunandi friðhelgi. Hún sýnir hvernig á að nota hverja aðferð á frönskum gögnum. IMY Svíþjóðar og aðrar ESB-stofnanir vísa í hana í eigin reglum.

Leiðbeiningar um gervigreindakerfi (2024): CNIL tilgreinir sex gerðir gagna sem þarf að meðhöndla í gervigreindaþjálfun. Engin önnur ESB DPA hefur gengið svona langt í gervigreind.

Smáförukökureglur: CNIL-leiðbeiningar um smáförukökur setja hæsta tæknilega gildið fyrir samþykktarverkfæri í ESB. Þær eru uppfærðar oft.

NIR: Viðkvæmasta auðkenni Frakklands

Numéro d'Inscription au Répertoire (NIR) - einnig kallað numéro de sécurité sociale - er 15 stafa franskt kennitala almannatrygginga.

Snið þess er: S AA MM DD CCC OOO K

  • S - 1 tala: kyn
  • AA - fæðingarár
  • MM - fæðingarmánuður
  • DD - fæðingardepartement (01-95, 2A/2B fyrir Korsíku, 97-99 erlendum, 99 erlendum)
  • CCC - sveitarfélagskóði
  • OOO - fæðingarröð
  • K - 2 stafa eftirlitslykill (97 - (NIR mod 97))

NIR geymir kyn, fæðingardag og fæðingarstað í einu númeri. CNIL lítur á það sem hættuleg. Það þarf sama umhirðu og sérflokka gögn samkvæmt GDPR 9. grein.

Af hverju verkfæri missa NIR: Almenn NLP-verkfæri bila á NIR af þremur ástæðum. Í fyrsta lagi líkjast 15 tölurnar (oft skrifaðar án bila) öðrum löngum tölum. Í öðru lagi geyma tölur 7-11 departement-kóða. Verkfæri sem sleppa mod-97 prófuninni sleppa fölskum jákvæðum í gegnum. Í þriðja lagi nota Korsíku-departement 2A og 2B, ekki hrein tölutákn. Verkfæri byggð fyrir talnaaðeins-mynstrum bila hér.

Góð NIR-greining þarf þrjá hluti: mod-97 lykilprófun, landfræðilegt kóðabók og Korsíku-meðvætt reglur.

Sjá yfirlit yfir öryggissamræmi fyrir hvernig auðkennisumfang passar í GDPR-verndarstafla.

SIREN og SIRET: Fyrirtækjaauðkenni í persónugagnaskrám

SIREN: 9 stafa franskt fyrirtækjaauðkenni með Luhn-eftirlitsstaf. Kemur fram í öllum frönskum viðskiptaskjölum.

SIRET: 14 stafa númer byggt á SIREN (9 stafir) plús starfstöðvarkóða (5 stafir). SIRET nefnir starfstöð. SIREN nefnir fyrirtækið.

Viðskiptaskrár geyma oft SIRET-númer við hlið nafna starfsmanna. CNIL lítur á SIRET plús nafn sem persónugögn. Þetta par virkjar GDPR-reglur jafnvel án sérstaks persónulegra gagnareits.

Sex nafnleyndarskref fyrir þjálfun gervigreindar

CNIL-leiðbeiningar 2024 um gervigreind ná yfir sex gerðir gagna. Hverja þarf að meðhöndla áður en frönsk persónugögn eru notuð í gervigreindaþjálfun:

  1. Fjarlægðu bein auðkenni - Nöfn, NIR, SIREN verður að skipta um eða fjarlægja
  2. Alhæfðu hálf-auðkenni - Aldur, departement, starfsgrein geta saman auðkennt fólk; minnkaðu nákvæmni þeirra
  3. Bættu við hávaða í tölur - Töluleg svæði þurfa stilltan hávaða til að loka fyrir ályktunarrétt
  4. Athugaðu k-nafnleynd - Sérhver einstaklingur verður að líta út eins og að minnsta kosti k-1 aðrir; CNIL bendir á k ≥ 5
  5. Athugaðu l-fjölbreytni - Viðkvæm eiginleikar verða að vera mismunandi innan hvers hóps
  6. Keyrðu endurauðkenningaráhættuprófun - Notaðu skjalfesta aðferð áður en gögn eru gefin út

Að fjarlægja NIR og fullt nafn eitt og sér er ekki nóg. CNIL hefur komist að þessu í framfylgni. Hálf-auðkenni eins og póstnúmer og læknisfræðileg sérgrein þurfa einnig meðhöndlun.

GDPR-samræmisleiðbeiningar ná yfir þær skrár sem frönsk DPA-úttekt bíður eftir.

Tungumálasamhengi fyrir franska PII-greiningu

Frakkland hefur nokkur tungumálasamhengi sem hafa áhrif á greiningu.

Staðlað franskt er tungumál allra opinberra skjala. NER-líkön verða að meðhöndla sérstafi: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Yfirsjávarlönd (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane og Mayotte nota NIR-kóða á bilinu 97-98. Staðbundin nafnamynstrar eru frábrugðin meginlandi Frakklands.

Alsace-Moselle: Þýsk-uppruna nöfn og sum þýsk skjalsnið koma fram í frönskum gögnum. Líkön þjálfuð eingöngu á stöðluðum frönsku geta missist af þessum.

Þverlanda notkun: Belgískt franskt notar annað auðkennissnið. Verkfæri notuð í Frakklandi og Belgíu þurfa reglur fyrir hvort tveggja.

Hvað verkfærið þitt verður að ná yfir

Franskt samræmi krefst fjögurra tæknilegra getu:

  1. NIR með mod-97 prófun - Myndagreining ein og sér dugar ekki. Verkfæri verða að keyra lykilprófunina og meðhöndla 2A/2B kóða.
  2. SIREN/SIRET með Luhn-prófun - Fyrirtækjaauðkenni koma fram í persónuskrám og skapa GDPR-þakta nafnsamsetningu.
  3. Franskt NER með fullum sérstafstudningi - Verður að meðhöndla sett nöfn (Jean-Pierre), agnir (de, du, des) og sérstafi.
  4. Skjalfest sex-þrepa ferli - Hvert gervigreindaþjálfunarleiðlagnir á frönskum gögnum þurfa skriflegar skrár yfir hverja nafnleysndaraðgerð.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.