anonym.legal

By · Last updated 2026-06-03

Назад к блогуТехнические

Воспроизводимая конфиденциальность: пресеты для команд машинного обучения

Анонимизация обучающих данных ML должна быть последовательной и воспроизводимой. Если специалисты по данным A и B применяют разные типы сущностей, обучающие наборы данных становятся несовместимыми.

June 3, 20266 мин чтения
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Воспроизводимая конфиденциальность: почему командам ML нужны пресеты, а не только документация

ДПО утвердил план анонимизации. Он охватывает четыре элемента: имена, адреса электронной почты, номера телефонов и даты рождения. Метод — Replace. План занимает четыре страницы и хранится в вики по соответствию.

Двенадцать специалистов по данным прочли его на установочном совещании. Каждый настраивает инструмент самостоятельно. Некоторые добавляют национальные идентификаторы. Некоторые добавляют IP-адреса. Некоторые переключаются на Redact. Через три месяца наборы данных оказываются несовместимы.

CNIL в 2024 году проверила несколько ИИ-компаний. Проблема: ненадлежащее использование персональных данных в обучающих наборах. Проверяющие спрашивали не просто о том, проводилась ли анонимизация. Они спрашивали, насколько последовательно она применялась.

Документация нужна. Но её недостаточно. Решение — пресет.

Почему обучающие наборы ML требуют особой конфигурации

Создание обучающих наборов предъявляет уникальные требования. Общая анонимизация документов их не разделяет.

Replace, а не Redact. Модели, обученные на тексте, где имена заменены на [REDACTED], запоминают этот токен как маркер позиции имени. Это ухудшает модель. Replace меняет «Иван Иванов» на «Дмитрий Соколов». Модель видит реальные паттерны имён. Она не видит токен-маску.

Единый процесс для всех записей. Набор данных, где 70% имён заменены, а 30% заменены на [REDACTED], посылает смешанный сигнал. Каждая запись должна проходить те же этапы.

Единый список сущностей. Если набор содержит данные о здоровье, удаление имён, но сохранение дат рождения в части записей создаёт пробелы. Все двенадцать специалистов по данным должны удалять одни и те же типы.

Без избыточного удаления. Удаление дат, являющихся временными метками, а не датами рождения, снижает качество набора без прироста в соответствии. Утверждённый пресет указывает точно, какие элементы удалять.

Воспроизводимый результат. Если набор данных нужно запустить повторно — например, обнаружен пропущенный тип сущности — пресет каждый раз даёт тот же результат. Произвольные конфигурации — нет.

Проблема двенадцати специалистов по данным

Европейская ML-команда финтех-компании использует наборы из журналов клиентских операций. ДПО утвердил цель — выявление мошенничества — с одним условием: все имена клиентов, адреса электронной почты, номера телефонов и идентификаторы платежей должны быть заменены до начала работы с моделями.

Без пресетов:

  • Специалист 1 удаляет имена, адреса электронной почты и номера телефонов — но пропускает идентификаторы платежей
  • Специалист 2 включает идентификаторы платежей, но использует Redact вместо Replace
  • Специалист 3 строго следует документу с планом
  • Специалисты 4–12 действуют по-разному

Объединённый набор данных частично не соответствует требованиям и частично избыточно обработан. ДПО не может его сертифицировать.

С утверждённым пресетом ДПО:

  • ДПО создаёт «ML Dev — Обнаружение мошенничества» с точными типами сущностей и методом Replace
  • Пресет передаётся всем двенадцати специалистам с одним правилом: использовать для всей работы с наборами данных
  • Никто не может изменить пресет без согласования с ДПО

Каждый специалист теперь выдаёт одинаковый результат. Объединённый набор данных согласован. Ежегодный аудит ИИ проходит без нарушений. В предыдущем году было три нарушения из-за несогласованной работы с наборами данных.

GDPR и Закон об ИИ ЕС

Актуально для 2026 года

Закон об ИИ ЕС вступил в полную силу в августе 2024 года. Он добавляет правила для ИИ-систем, использующих персональные данные для обучения моделей. Высокорисковые ИИ-системы должны документировать свои обучающие наборы, включая применённую анонимизацию.

Статья 5(1)(b) GDPR — правило ограничения цели — блокирует использование персональных данных без чёткого правового основания. Случаи CNIL 2024 года были сосредоточены именно на этом пробеле: данные, собранные для одного сервиса, использовались для обучения моделей без надлежащего основания или анонимизации.

Пресеты помогают выполнить оба набора требований:

  • Название и конфигурация пресета: задокументированный метод
  • Журналы обработки: доказательство применения метода
  • Одобрение ДПО: зафиксированное согласование конфигурации

Это создаёт аудиторский след, который требуют оба закона. Подробнее об обязательствах по статье 10 см. руководство по обучающим данным в соответствии с Законом об ИИ ЕС.

Конфигурация пресета для обучающих наборов NLP-моделей

Типы, включаемые в большинство обучающих наборов NLP-моделей:

  • PERSON — Replace с аналогичными именами
  • EMAIL_ADDRESS — Replace с синтетическими адресами
  • PHONE_NUMBER — Replace с синтетическими номерами
  • CREDIT_CARD / IBAN — Replace или Redact
  • LOCATION — Replace с аналогичными местами, если местоположение важно; Redact — если нет
  • DATE_OF_BIRTH — Redact; часто требуется группировка по возрасту

Типы, часто исключаемые:

  • Общие даты — временные метки помогают временны́м моделям
  • Названия организаций — помогают моделям распознавания именованных сущностей
  • URL-адреса — помогают моделям ссылок и ссылочных отношений

Руководитель ML и ДПО устанавливают эти правила в утверждённом пресете. Члены команды применяют его. Они не принимают решения по конфигурации.

Пресеты как институциональная память

До пресетов. Правильная конфигурация сущностей хранилась в головах троих специалистов по данным. Они прошли проверку соответствия. Двое уволились в третьем квартале. Знания ушли вместе с ними.

После пресетов. Конфигурация хранится в «ML Dev — Клиентские записи v2.1». Журнал версий показывает, когда он был создан, кто его утвердил и что изменилось по сравнению с v2.0. Новые члены команды используют пресет и получают всё накопленное в нём знание.

Версия 2.1 добавила обнаружение IBAN после того, как проверка выявила его отсутствие. Версия 2.0 была утверждена в феврале 2025 года. Журнал полный.

О том, как работают журналы обработки и потоки проверки ДПО, см. руководство по анонимизации обучающих данных ML в соответствии с GDPR.

Пресеты в сравнении с подходом CNIL

Дела CNIL по ИИ в 2024 году задали чёткий образец. Проверяющие спрашивают не только что было удалено, но и как это управлялось. Общий пресет с записью об одобрении ДПО и журналами обработки отвечает на этот вопрос напрямую.

Произвольная конфигурация — нет. Тот же пробел существует в других делах европейских органов по защите данных, следующих логике CNIL. Подробнее о подходе CNIL к ИИ см. руководство по соответствию CNIL GDPR для ИИ.

Заключение

Документация говорит членам команды, что делать. Пресеты делают это простым — и обязательным — каждый раз одинаково.

Для обучающих наборов ML согласованность — это одновременно юридическое требование и техническое. Пресет удовлетворяет обоим сразу.

Органы по защите данных, изучающие практики ИИ, хотят видеть доказательства единообразной анонимизации. Пресет, применяемый одинаково ко всей работе с наборами данных, — это наиболее убедительное доказательство, которое вы можете предоставить.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.