Воспроизводимая конфиденциальность: почему командам ML нужны пресеты, а не только документация

ДПО утвердил план анонимизации. Он охватывает четыре элемента: имена, адреса электронной почты, номера телефонов и даты рождения. Метод — Replace. План занимает четыре страницы и хранится в вики по соответствию.

Двенадцать специалистов по данным прочли его на установочном совещании. Каждый настраивает инструмент самостоятельно. Некоторые добавляют национальные идентификаторы. Некоторые добавляют IP-адреса. Некоторые переключаются на Redact. Через три месяца наборы данных оказываются несовместимы.

CNIL в 2024 году проверила несколько ИИ-компаний. Проблема: ненадлежащее использование персональных данных в обучающих наборах. Проверяющие спрашивали не просто о том, проводилась ли анонимизация. Они спрашивали, насколько последовательно она применялась.

Документация нужна. Но её недостаточно. Решение — пресет.

Почему обучающие наборы ML требуют особой конфигурации

Создание обучающих наборов предъявляет уникальные требования. Общая анонимизация документов их не разделяет.

Replace, а не Redact. Модели, обученные на тексте, где имена заменены на [REDACTED], запоминают этот токен как маркер позиции имени. Это ухудшает модель. Replace меняет «Иван Иванов» на «Дмитрий Соколов». Модель видит реальные паттерны имён. Она не видит токен-маску.

Единый процесс для всех записей. Набор данных, где 70% имён заменены, а 30% заменены на [REDACTED], посылает смешанный сигнал. Каждая запись должна проходить те же этапы.

Единый список сущностей. Если набор содержит данные о здоровье, удаление имён, но сохранение дат рождения в части записей создаёт пробелы. Все двенадцать специалистов по данным должны удалять одни и те же типы.

Без избыточного удаления. Удаление дат, являющихся временными метками, а не датами рождения, снижает качество набора без прироста в соответствии. Утверждённый пресет указывает точно, какие элементы удалять.

Воспроизводимый результат. Если набор данных нужно запустить повторно — например, обнаружен пропущенный тип сущности — пресет каждый раз даёт тот же результат. Произвольные конфигурации — нет.

Проблема двенадцати специалистов по данным

Европейская ML-команда финтех-компании использует наборы из журналов клиентских операций. ДПО утвердил цель — выявление мошенничества — с одним условием: все имена клиентов, адреса электронной почты, номера телефонов и идентификаторы платежей должны быть заменены до начала работы с моделями.

Без пресетов:

Специалист 1 удаляет имена, адреса электронной почты и номера телефонов — но пропускает идентификаторы платежей
Специалист 2 включает идентификаторы платежей, но использует Redact вместо Replace
Специалист 3 строго следует документу с планом
Специалисты 4–12 действуют по-разному

Объединённый набор данных частично не соответствует требованиям и частично избыточно обработан. ДПО не может его сертифицировать.

С утверждённым пресетом ДПО:

ДПО создаёт «ML Dev — Обнаружение мошенничества» с точными типами сущностей и методом Replace
Пресет передаётся всем двенадцати специалистам с одним правилом: использовать для всей работы с наборами данных
Никто не может изменить пресет без согласования с ДПО

Каждый специалист теперь выдаёт одинаковый результат. Объединённый набор данных согласован. Ежегодный аудит ИИ проходит без нарушений. В предыдущем году было три нарушения из-за несогласованной работы с наборами данных.

Актуально для 2026 года

Закон об ИИ ЕС вступил в полную силу в августе 2024 года. Он добавляет правила для ИИ-систем, использующих персональные данные для обучения моделей. Высокорисковые ИИ-системы должны документировать свои обучающие наборы, включая применённую анонимизацию.

Статья 5(1)(b) GDPR — правило ограничения цели — блокирует использование персональных данных без чёткого правового основания. Случаи CNIL 2024 года были сосредоточены именно на этом пробеле: данные, собранные для одного сервиса, использовались для обучения моделей без надлежащего основания или анонимизации.

Пресеты помогают выполнить оба набора требований:

Название и конфигурация пресета: задокументированный метод
Журналы обработки: доказательство применения метода
Одобрение ДПО: зафиксированное согласование конфигурации

Это создаёт аудиторский след, который требуют оба закона. Подробнее об обязательствах по статье 10 см. руководство по обучающим данным в соответствии с Законом об ИИ ЕС.

Конфигурация пресета для обучающих наборов NLP-моделей

Типы, включаемые в большинство обучающих наборов NLP-моделей:

PERSON — Replace с аналогичными именами
EMAIL_ADDRESS — Replace с синтетическими адресами
PHONE_NUMBER — Replace с синтетическими номерами
CREDIT_CARD / IBAN — Replace или Redact
LOCATION — Replace с аналогичными местами, если местоположение важно; Redact — если нет
DATE_OF_BIRTH — Redact; часто требуется группировка по возрасту

Типы, часто исключаемые:

Общие даты — временные метки помогают временны́м моделям
Названия организаций — помогают моделям распознавания именованных сущностей
URL-адреса — помогают моделям ссылок и ссылочных отношений

Руководитель ML и ДПО устанавливают эти правила в утверждённом пресете. Члены команды применяют его. Они не принимают решения по конфигурации.

Пресеты как институциональная память

До пресетов. Правильная конфигурация сущностей хранилась в головах троих специалистов по данным. Они прошли проверку соответствия. Двое уволились в третьем квартале. Знания ушли вместе с ними.

После пресетов. Конфигурация хранится в «ML Dev — Клиентские записи v2.1». Журнал версий показывает, когда он был создан, кто его утвердил и что изменилось по сравнению с v2.0. Новые члены команды используют пресет и получают всё накопленное в нём знание.

Версия 2.1 добавила обнаружение IBAN после того, как проверка выявила его отсутствие. Версия 2.0 была утверждена в феврале 2025 года. Журнал полный.

О том, как работают журналы обработки и потоки проверки ДПО, см. руководство по анонимизации обучающих данных ML в соответствии с GDPR.

Пресеты в сравнении с подходом CNIL

Дела CNIL по ИИ в 2024 году задали чёткий образец. Проверяющие спрашивают не только что было удалено, но и как это управлялось. Общий пресет с записью об одобрении ДПО и журналами обработки отвечает на этот вопрос напрямую.

Произвольная конфигурация — нет. Тот же пробел существует в других делах европейских органов по защите данных, следующих логике CNIL. Подробнее о подходе CNIL к ИИ см. руководство по соответствию CNIL GDPR для ИИ.

Заключение

Документация говорит членам команды, что делать. Пресеты делают это простым — и обязательным — каждый раз одинаково.

Для обучающих наборов ML согласованность — это одновременно юридическое требование и техническое. Пресет удовлетворяет обоим сразу.

Органы по защите данных, изучающие практики ИИ, хотят видеть доказательства единообразной анонимизации. Пресет, применяемый одинаково ко всей работе с наборами данных, — это наиболее убедительное доказательство, которое вы можете предоставить.

Источники

Связанные статьи

Технические

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

Начать бесплатный пробный период Посмотреть функции

Воспроизводимая конфиденциальность: пресеты для команд машинного обучения

Воспроизводимая конфиденциальность: почему командам ML нужны пресеты, а не только документация

Почему обучающие наборы ML требуют особой конфигурации

Проблема двенадцати специалистов по данным

Конфигурация пресета для обучающих наборов NLP-моделей

Пресеты как институциональная память

Пресеты в сравнении с подходом CNIL

Заключение

Источники

Связанные статьи

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Готовы защитить ваши данные?

Воспроизводимая конфиденциальность: пресеты для команд машинного обучения

Воспроизводимая конфиденциальность: почему командам ML нужны пресеты, а не только документация

Почему обучающие наборы ML требуют особой конфигурации

Проблема двенадцати специалистов по данным

GDPR и Закон об ИИ ЕС

Конфигурация пресета для обучающих наборов NLP-моделей

Пресеты как институциональная память

Пресеты в сравнении с подходом CNIL

Заключение

Источники

Связанные статьи

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Готовы защитить ваши данные?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow