anonym.legal

By · Last updated 2026-06-05

Назад към блогаGDPR и съответствие

CNIL Франция: Технически изисквания за инструменти за лични данни

CNIL обработи 16 433 жалби през 2023 г. (+43%). 63% от предписанията на CNIL посочват неадекватна анонимизация при AI. NIR/Френският SSN се пропуска от 78% от универсалните инструменти.

June 5, 20269 мин. четене
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Франция: Технически изисквания за инструменти за лични данни

Френският CNIL е най-взискателният надзорен орган за данни в ЕС. Повечето европейски регулатори издават широки правила. CNIL отива по-далеч. Той публикува прецизни технически насоки, наречени recommandations, които задават точни стандарти за анонимизация и използване на данни при AI.

Предписанията на CNIL от 2024 г. нерядко посочват слаба анонимизация в AI системите. Органът прие 16 433 жалби през 2023 г. — с 43% повече от 2022 г.

Насоките на CNIL формират политиката на ЕС

Техническите документи на CNIL се цитират широко от другите европейски надзорни органи. Два документа са с особено значение.

Guide pratique de l'anonymisation (2023): Това ръководство обхваща k-анонимност, l-разнообразие и диференциална поверителност. Показва как да се прилага всеки метод върху френски данни. Шведският IMY и други европейски органи го цитират в собствените си правила.

Насоки за AI системи (2024): CNIL изброява шест типа данни, с които трябва да се работи при обучение на AI. Нито един друг европейски надзорен орган не е отишъл толкова далеч по темата за AI.

Правила за бисквитки: Насоките на CNIL за бисквитките задават най-високата техническа летва за инструментите за съгласие в ЕС. Актуализират се редовно.

NIR: Най-чувствителният идентификатор на Франция

Numero d'Inscription au Repertoire (NIR) — известен и като numero de securite sociale — е 15-цифрен френски номер на социалното осигуряване.

Форматът му е: S AA MM DD CCC OOO K

  • S — 1 цифра: пол
  • AA — година на раждане
  • MM — месец на раждане
  • DD — департамент на раждане (01-95, 2A/2B за Корсика, 97-99 отвъдморски, 99 чуждестранни)
  • CCC — код на общината
  • OOO — ред на раждане
  • K — 2-цифрен контролен ключ (97 - (NIR mod 97))

NIR съдържа пол, дата и място на раждане в един номер. CNIL го третира като данни с висок риск. Те изискват същото ниво на защита като данните от специални категории по член 9 от GDPR.

Защо инструментите пропускат NIR: Универсалните NLP инструменти не успяват да разпознаят NIR поради три причини. Първо, 15-те цифри (нерядко изписани без разделители) изглеждат като други дълги числа. Второ, цифри 7-11 съдържат код на департамент. Инструменти, пропускащи проверката mod-97, допускат фалшиви положителни. Трето, корсиканските департаменти използват 2A и 2B, а не само цифри. Инструменти, изградени за шаблони само с цифри, се провалят тук.

Доброто разпознаване на NIR изисква три неща: проверка на ключа по mod-97, географски речник на кодовете и правила, съобразени с Корсика.

Вижте нашия преглед на сигурността и съответствието за начина, по който покритието на идентификатори се вписва в стека от гаранции по GDPR.

SIREN и SIRET: Бизнес идентификатори в лични досиета

SIREN: 9-цифрен идентификатор на френска компания с контролна цифра по алгоритъма на Лун. Среща се в цялата французка търговска документация.

SIRET: 14-цифрен номер, съставен от SIREN (9 цифри) плюс код на обект (5 цифри). SIRET идентифицира обект. SIREN идентифицира компанията.

Бизнес досиетата нерядко съдържат SIRET числа до имена на служители. CNIL третира комбинацията SIRET + име като лични данни. Тази двойка задейства правилата на GDPR дори когато няма отделно поле за лични данни.

Шест стъпки за анонимизация при обучение на AI

Насоките на CNIL за AI от 2024 г. обхващат шест типа данни. С всеки трябва да се работи преди използването на французки лични данни за обучение на AI:

  1. Премахване на преки идентификатори — имена, NIR, SIREN трябва да бъдат заменени или премахнати
  2. Обобщаване на квази-идентификатори — възраст, департамент, професия могат да се комбинират и да доведат до идентификация; намалете тяхната точност
  3. Добавяне на шум към числови данни — числовите полета се нуждаят от калибриран шум, за да блокира извода
  4. Проверка на k-анонимност — всяко лице трябва да прилича на поне k-1 другите; CNIL препоръчва k >= 5
  5. Проверка на l-разнообразие — чувствителните атрибути трябва да варират в рамките на всяка група
  6. Оценка на риска от повторна идентификация — преди всяко предоставяне на данни използвайте документиран метод

Премахването само на NIR и пълното ime не е достатъчно. CNIL е установил това при прилагането. Квази-идентификатори като пощенски код и медицинска специалност също изискват обработка.

Нашето ръководство за съответствие с GDPR обхваща документите, които французките надзорни органи очакват при одит.

Езиков контекст за разпознаване на французки лични данни

Франция има няколко езикови контекста, влияещи върху разпознаването.

Стандартен френски е езикът на всички официални документи. NER моделите трябва да работят с ударени букви: e с ударения, a с ударения, i с ударения, o с ударения, u с ударения, cedilla, oe.

Отвъдморски територии (DOM-TOM): Мартиника, Гваделупа, Реюнион, Гвиана и Майот използват NIR кодове в диапазона 97-98. Местните именни шаблони се различават от тези на континентална Франция.

Елзас-Мозел: Имена от германски произход и някои германски документни формати се срещат в французки документи. Модели, обучени само на стандартен французки, може да ги пропускат.

Трансгранична употреба: Белгийският французки използва различен формат на идентификатор. Инструменти, използвани във Франция и Белгия, се нуждаят от правила за всеки.

Какво трябва да покрива вашият инструмент

Френското съответствие изисква четири технически способности:

  1. NIR с проверка mod-97 — Съпоставянето само по шаблон се проваля. Инструментите трябва да изпълняват проверката на ключа и да работят с кодовете 2A/2B.
  2. SIREN/SIRET с проверка по Лун — Бизнес идентификаторите се срещат в лични досиета и създават комбинации, обхванати от GDPR.
  3. Французки NER с пълна поддръжка на ударени символи — Трябва да работи с двойни имена (Jean-Pierre), частици (de, du, des) и ударени символи.
  4. Документиран шестстъпков процес — Всеки тръбопровод за обучение на AI върху французки данни се нуждае от писмен запис за всяка дейност по анонимизация.

Източници

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.