anonym.legal

By · Last updated 2026-06-05

Назад к блогуGDPR и соблюдение

CNIL Франция: технические требования регулятора к инструментам обработки ПДн

В 2023 году CNIL рассмотрела 16 433 жалобы (+43%). 63% предписаний CNIL указывают на неадекватную анонимизацию ИИ. NIR/французский номер социального страхования не обнаруживается 78% универсальных инструментов.

June 5, 20269 мин чтения
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Франция: технические требования регулятора к инструментам обработки ПДн

Французская CNIL — самый требовательный орган по защите данных в ЕС. Большинство европейских регуляторов формулируют широкие нормы. CNIL идёт дальше: она публикует детальные технические руководства, называемые recommandations, которые устанавливают точные стандарты для анонимизации и использования данных в ИИ.

Предписания CNIL 2024 года нередко указывали на слабую анонимизацию в ИИ-системах. В 2023 году ведомство получило 16 433 жалобы — на 43% больше, чем в 2022 году.

Руководства CNIL формируют политику ЕС

Технические документы CNIL широко цитируются другими органами ЕС по защите данных. Наибольшее значение имеют два руководства.

Guide pratique de l'anonymisation (2023): Руководство охватывает k-анонимность, l-разнообразие и дифференциальную конфиденциальность, показывая применение каждого метода к французским данным. Шведский IMY и другие органы ЕС ссылаются на него в собственных документах.

Руководство по ИИ-системам (2024): CNIL перечисляет шесть типов данных, которые должны быть обработаны при обучении ИИ. Ни один другой регулятор ЕС не зашёл так далеко в вопросах ИИ.

Правила использования куки: Руководство CNIL по куки устанавливает самую высокую техническую планку для инструментов управления согласием в ЕС и регулярно обновляется.

NIR: наиболее чувствительный французский идентификатор

Numéro d'Inscription au Répertoire (NIR) — иначе называемый numéro de sécurité sociale — представляет собой 15-значный французский номер социального страхования.

Его формат: S AA MM DD CCC OOO K

  • S — 1 цифра: пол
  • AA — год рождения
  • MM — месяц рождения
  • DD — департамент рождения (01–95, 2A/2B для Корсики, 97–99 заморские территории, 99 иностранцы)
  • CCC — код муниципалитета
  • OOO — порядковый номер рождения
  • K — 2-значный контрольный ключ (97 − (NIR mod 97))

NIR содержит в одном числе пол, дату рождения и место рождения. CNIL относится к нему как к данным повышенного риска. Он требует такого же обращения, как данные особых категорий по статье 9 GDPR.

Почему инструменты пропускают NIR: Универсальные NLP-инструменты не справляются с NIR по трём причинам. Во-первых, 15 цифр (часто записываемых без пробелов) выглядят как другие длинные числа. Во-вторых, цифры 7–11 содержат код департамента. Инструменты, пропускающие проверку mod-97, дают ложные срабатывания. В-третьих, корсиканские департаменты используют 2A и 2B, а не чистые цифры. Инструменты, рассчитанные только на числовые шаблоны, здесь дают сбой.

Качественное обнаружение NIR требует трёх компонентов: проверки ключа mod-97, географического справочника и правил для кодов Корсики.

О том, как идентификаторы вписываются в стек защитных мер GDPR — в разделе Безопасность и соответствие требованиям.

SIREN и SIRET: бизнес-идентификаторы в персональных файлах

SIREN: 9-значный французский идентификатор компании с контрольной цифрой по алгоритму Луна. Встречается во всех французских коммерческих документах.

SIRET: 14-значный номер, состоящий из SIREN (9 цифр) плюс код подразделения (5 цифр). SIRET идентифицирует конкретное место, SIREN — компанию в целом.

В деловых файлах SIRET нередко соседствует с именами сотрудников. CNIL рассматривает пару SIRET + имя как персональные данные. Такое сочетание влечёт применение норм GDPR даже при отсутствии отдельного поля с персональными данными.

Шесть шагов анонимизации для обучения ИИ

Руководство CNIL по ИИ 2024 года охватывает шесть типов данных. Каждый из них должен быть обработан до использования французских персональных данных при обучении ИИ:

  1. Удаление прямых идентификаторов — Имена, NIR, SIREN необходимо заменить или удалить
  2. Обобщение квазиидентификаторов — Возраст, департамент, профессия в совокупности могут позволить повторную идентификацию; снизьте их точность
  3. Добавление шума к числовым данным — Числовые поля требуют калиброванного шума для предотвращения вывода
  4. Проверка k-анонимности — Каждый человек должен быть неотличим хотя бы от k-1 других; CNIL ориентируется на k ≥ 5
  5. Проверка l-разнообразия — Чувствительные атрибуты должны варьироваться внутри каждой группы
  6. Оценка риска повторной идентификации — Перед любой публикацией данных используйте задокументированный метод

Удаления NIR и полного имени недостаточно. CNIL неоднократно фиксировала это в ходе расследований. Квазиидентификаторы — почтовый индекс и медицинская специальность — также требуют обработки.

Наш Руководство по соответствию GDPR охватывает документацию, которую ожидают проверяющие французского регулятора.

Языковой контекст для обнаружения французских ПДн

Во Франции существует несколько языковых контекстов, влияющих на обнаружение ПДн.

Стандартный французский — язык всех официальных документов. NER-модели должны обрабатывать буквы с диакритикой: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Заморские территории (DOM-TOM): Мартиника, Гваделупа, Реюньон, Гвиана и Майотта используют коды NIR в диапазоне 97–98. Местные шаблоны имён отличаются от материковой Франции.

Эльзас-Мозель: В французских документах встречаются имена немецкого происхождения и некоторые немецкие форматы документов. Модели, обученные только на стандартном французском, могут их пропустить.

Трансграничное использование: Бельгийский французский предполагает иной формат удостоверения личности. Инструменты, применяемые во Франции и Бельгии, должны поддерживать правила для каждой страны.

Что должен уметь ваш инструмент

Соответствие французским требованиям предполагает четыре технические возможности:

  1. NIR с проверкой mod-97 — Сопоставление по шаблону недостаточно. Инструменты обязаны выполнять проверку ключа и обрабатывать коды 2A/2B.
  2. SIREN/SIRET с проверкой Луна — Бизнес-идентификаторы встречаются в персональных файлах и создают охватываемые GDPR комбинации с именами.
  3. Французская NER с полной поддержкой диакритики — Должна обрабатывать составные имена (Jean-Pierre), частицы (de, du, des) и буквы с диакритикой.
  4. Задокументированный шестишаговый процесс — Любой конвейер обучения ИИ на французских данных должен содержать письменный отчёт по каждому виду анонимизации.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.