By · Last updated 2026-06-05

Rudi kwa BlogGDPR & Ufuatiliaji

CNIL Ufaransa: Mahitaji ya Zana za PII za DPA

CNIL ilisindika malalamiko 16,433 mwaka 2023 (+43%). Asilimia 63 ya arifa za CNIL zinanukuu kutofautiana kwa usimbaji fiche wa AI. NIR/SSN ya Kifaransa imekosekana na asilimia 78 ya zana za jumla.

June 5, 20269 dakika kusoma
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Ufaransa: Mahitaji ya Zana za PII za DPA

CNIL ya Ufaransa ndiyo chombo cha data kinachohitajika zaidi katika EU. Walinzi wengi wa EU wanaandika kanuni pana. CNIL inaenda mbali zaidi. Inachapisha mwongozo wa kiufundi maalum unaoitwa recommandations. Hizi zinaweka viwango sahihi vya usimbaji fiche na matumizi ya data ya AI.

Arifa za CNIL mwaka 2024 mara nyingi zilinukuu usimbaji fiche dhaifu katika mifumo ya AI. Wakala ulichukua malalamiko 16,433 mwaka 2023. Hiyo ilikuwa ongezeko la asilimia 43 zaidi ya mwaka 2022.

Mwongozo wa CNIL Unaoshapa Sera ya EU

Matini ya kiufundi ya CNIL yananukuliwa sana na DPA nyingine za EU. Miongozo miwili ina umuhimu zaidi.

Guide pratique de l'anonymisation (2023): Mwongozo huu unashughulikia k-anonymity, l-diversity, na faragha tofauti. Unaonyesha jinsi ya kutumia kila mbinu kwenye data ya Kifaransa. IMY ya Sweden na vyombo vingine vya EU vimeinukuu katika kanuni zao wenyewe.

Mwongozo wa mifumo ya AI (2024): CNIL inaorodhesha aina sita za data ambazo lazima zishughulikiwe katika mafunzo ya AI. Hakuna DPA nyingine ya EU iliyokwenda mbali hivi kuhusu AI.

Kanuni za vidakuzi: Mwongozo wa vidakuzi wa CNIL unaweka kiwango cha juu zaidi cha kiufundi cha zana za idhini katika EU. Unasasishwa mara kwa mara.

NIR: Kitambulisho Nyeti Zaidi cha Ufaransa

Numero d'Inscription au Repertoire (NIR) -- pia inaitwa numero de securite sociale -- ni nambari ya usalama wa jamii ya Kifaransa yenye tarakimu 15.

Muundo wake ni: S AA MM DD CCC OOO K

  • S -- tarakimu 1: jinsia
  • AA -- mwaka wa kuzaliwa
  • MM -- mwezi wa kuzaliwa
  • DD -- idara ya kuzaliwa (01-95, 2A/2B kwa Corsica, 97-99 ng'ambo, 99 ya kigeni)
  • CCC -- nambari ya manispaa
  • OOO -- mpangilio wa kuzaliwa
  • K -- ufunguo wa ukaguzi wa tarakimu 2 (97 - (NIR mod 97))

NIR inashikilia jinsia, tarehe ya kuzaliwa, na mahali pa kuzaliwa katika nambari moja. CNIL inaitendea kama ya hatari kubwa. Inahitaji uangalifu sawa na data ya kategoria maalum chini ya GDPR Kifungu cha 9.

Kwa nini zana zinakosa NIR: Zana za jumla za NLP zinashindwa kwenye NIR kwa sababu tatu. Kwanza, tarakimu 15 (mara nyingi zimeandikwa bila nafasi) zinaonekana kama nambari nyingine ndefu. Pili, tarakimu 7-11 zinashikilia nambari ya idara. Zana zinazoruka ukaguzi wa mod-97 zinaruhusu uwongo wa "chanya" kupita. Tatu, idara za Corsica zinatumia 2A na 2B, si tarakimu tu. Zana zilizojengwa kwa mifumo ya tarakimu-tu zinashindwa hapa.

Utambuzi mzuri wa NIR unahitaji mambo matatu: ukaguzi wa ufunguo wa mod-97, kitabu cha nambari za kijiografia, na kanuni zinazojua Corsica.

Tazama muhtasari wetu wa uzingatiaji wa usalama jinsi msaada wa kitambulisho unavyoendana na mrundikano wa dhamana ya GDPR.

SIREN na SIRET: Vitambulisho vya Biashara katika Faili za Kibinafsi

SIREN: Kitambulisho cha kampuni cha Kifaransa cha tarakimu 9 chenye tarakimu ya ukaguzi ya Luhn. Kinaonekana katika hati zote za biashara za Kifaransa.

SIRET: Nambari ya tarakimu 14 iliyojengwa kutoka SIREN (tarakimu 9) pamoja na nambari ya uanzishwaji (tarakimu 5). SIRET inaitaja tovuti. SIREN inaitaja kampuni.

Mawasiliano ya biashara mara nyingi yana nambari za SIRET karibu na majina ya wafanyakazi. CNIL inaitendea SIRET pamoja na jina kama data ya kibinafsi. Jozi hiyo inasababisha kanuni za GDPR hata bila sehemu tofauti ya data ya kibinafsi.

Hatua Sita za Usimbaji Fiche kwa Mafunzo ya AI

Mwongozo wa AI wa CNIL wa 2024 unashughulikia aina sita za data. Kila moja lazima ishughulikiwe kabla ya kutumia rekodi za kibinafsi za Kifaransa katika mafunzo ya AI:

  1. Ondoa vitambulisho vya moja kwa moja -- Majina, NIR, SIREN lazima vibadilishwe au viondolewe
  2. Jumlisha vitambulisho vya karibu -- Umri, idara, kazi vinaweza kuungana kutambua watu upya; punguza usahihi wao
  3. Ongeza kelele kwa nambari -- Sehemu za nambari zinahitaji kelele iliyopangwa kuzuia makisio
  4. Angalia k-anonymity -- Kila mtu lazima aonekane kama watu wengine k-1 angalau; CNIL inaelekeza k >= 5
  5. Angalia l-diversity -- Sifa nyeti lazima zitofautiane ndani ya kila kikundi
  6. Endesha ukaguzi wa hatari ya utambuzi upya -- Tumia mbinu iliyorekodiwa kabla ya kutolewa kwa data yoyote

Kuondoa NIR na jina kamili peke yake haitoshi. CNIL imegundua hili katika utekelezaji. Vitambulisho vya karibu kama msimbo wa ZIP na utaalamu wa matibabu pia vinahitaji matibabu.

Mwongozo wetu wa uzingatiaji wa GDPR unashughulikia rekodi ambazo ukaguzi wa DPA wa Kifaransa unatarajia kuona.

Muktadha wa Lugha kwa Utambuzi wa PII ya Kifaransa

Ufaransa ina muktadha kadhaa wa kiisimu unaoathiri utambuzi.

Kifaransa cha kawaida ndiyo lugha ya hati zote rasmi. Mifano ya NER lazima ishughulikie herufi zenye alama: e, e, e, e, a, a, i, o, u, c, oe.

Maeneo ya ng'ambo (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane, na Mayotte zinatumia nambari za NIR katika safu ya 97-98. Mifumo ya majina ya ndani inatofautiana na Ufaransa Bara.

Alsace-Moselle: Majina yanayotoka Ujerumani na baadhi ya muundo wa hati za Kijerumani vinaonekana katika rekodi za Kifaransa. Mifano iliyofunzwa kwenye Kifaransa cha kawaida tu inaweza kukosa hivi.

Matumizi ya mpakani: Kifaransa cha Ubelgiji kinatumia muundo tofauti wa kitambulisho. Zana zinazotumika Ufaransa na Ubelgiji zinahitaji kanuni za kila mmoja.

Zana Yako Lazima Ishughulikie Nini

Uzingatiaji wa Kifaransa unahitaji uwezo wa kiufundi manne:

  1. NIR yenye ukaguzi wa mod-97 -- Kulinganisha mifumo peke yake kunashindwa. Zana lazima ziendeshe ukaguzi wa ufunguo na zishughulikie nambari za 2A/2B.
  2. SIREN/SIRET yenye ukaguzi wa Luhn -- Vitambulisho vya biashara vinaonekana katika faili za kibinafsi na kuunda mchanganyiko wa data ya kibinafsi unaofunikwa na GDPR.
  3. NER ya Kifaransa yenye msaada kamili wa alama -- Lazima ishughulikie majina yaliyounganishwa (Jean-Pierre), vipande (de, du, des), na herufi zenye alama.
  4. Mchakato wa hatua sita ulioandikwa -- Mstari wowote wa usindikaji wa mafunzo ya AI kwenye data ya Kifaransa unahitaji kumbukumbu iliyoandikwa kwa kila shughuli ya usimbaji fiche.

Vyanzo

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.