Воспроизводимая конфиденциальность: почему командам ML нужны пресеты, а не только документация
ДПО утвердил план анонимизации. Он охватывает четыре элемента: имена, адреса электронной почты, номера телефонов и даты рождения. Метод — Replace. План занимает четыре страницы и хранится в вики по соответствию.
Двенадцать специалистов по данным прочли его на установочном совещании. Каждый настраивает инструмент самостоятельно. Некоторые добавляют национальные идентификаторы. Некоторые добавляют IP-адреса. Некоторые переключаются на Redact. Через три месяца наборы данных оказываются несовместимы.
CNIL в 2024 году проверила несколько ИИ-компаний. Проблема: ненадлежащее использование персональных данных в обучающих наборах. Проверяющие спрашивали не просто о том, проводилась ли анонимизация. Они спрашивали, насколько последовательно она применялась.
Документация нужна. Но её недостаточно. Решение — пресет.
Почему обучающие наборы ML требуют особой конфигурации
Создание обучающих наборов предъявляет уникальные требования. Общая анонимизация документов их не разделяет.
Replace, а не Redact. Модели, обученные на тексте, где имена заменены на [REDACTED], запоминают этот токен как маркер позиции имени. Это ухудшает модель. Replace меняет «Иван Иванов» на «Дмитрий Соколов». Модель видит реальные паттерны имён. Она не видит токен-маску.
Единый процесс для всех записей. Набор данных, где 70% имён заменены, а 30% заменены на [REDACTED], посылает смешанный сигнал. Каждая запись должна проходить те же этапы.
Единый список сущностей. Если набор содержит данные о здоровье, удаление имён, но сохранение дат рождения в части записей создаёт пробелы. Все двенадцать специалистов по данным должны удалять одни и те же типы.
Без избыточного удаления. Удаление дат, являющихся временными метками, а не датами рождения, снижает качество набора без прироста в соответствии. Утверждённый пресет указывает точно, какие элементы удалять.
Воспроизводимый результат. Если набор данных нужно запустить повторно — например, обнаружен пропущенный тип сущности — пресет каждый раз даёт тот же результат. Произвольные конфигурации — нет.
Проблема двенадцати специалистов по данным
Европейская ML-команда финтех-компании использует наборы из журналов клиентских операций. ДПО утвердил цель — выявление мошенничества — с одним условием: все имена клиентов, адреса электронной почты, номера телефонов и идентификаторы платежей должны быть заменены до начала работы с моделями.
Без пресетов:
- Специалист 1 удаляет имена, адреса электронной почты и номера телефонов — но пропускает идентификаторы платежей
- Специалист 2 включает идентификаторы платежей, но использует Redact вместо Replace
- Специалист 3 строго следует документу с планом
- Специалисты 4–12 действуют по-разному
Объединённый набор данных частично не соответствует требованиям и частично избыточно обработан. ДПО не может его сертифицировать.
С утверждённым пресетом ДПО:
- ДПО создаёт «ML Dev — Обнаружение мошенничества» с точными типами сущностей и методом Replace
- Пресет передаётся всем двенадцати специалистам с одним правилом: использовать для всей работы с наборами данных
- Никто не может изменить пресет без согласования с ДПО
Каждый специалист теперь выдаёт одинаковый результат. Объединённый набор данных согласован. Ежегодный аудит ИИ проходит без нарушений. В предыдущем году было три нарушения из-за несогласованной работы с наборами данных.
GDPR и Закон об ИИ ЕС
Актуально для 2026 года
Закон об ИИ ЕС вступил в полную силу в августе 2024 года. Он добавляет правила для ИИ-систем, использующих персональные данные для обучения моделей. Высокорисковые ИИ-системы должны документировать свои обучающие наборы, включая применённую анонимизацию.
Статья 5(1)(b) GDPR — правило ограничения цели — блокирует использование персональных данных без чёткого правового основания. Случаи CNIL 2024 года были сосредоточены именно на этом пробеле: данные, собранные для одного сервиса, использовались для обучения моделей без надлежащего основания или анонимизации.
Пресеты помогают выполнить оба набора требований:
- Название и конфигурация пресета: задокументированный метод
- Журналы обработки: доказательство применения метода
- Одобрение ДПО: зафиксированное согласование конфигурации
Это создаёт аудиторский след, который требуют оба закона. Подробнее об обязательствах по статье 10 см. руководство по обучающим данным в соответствии с Законом об ИИ ЕС.
Конфигурация пресета для обучающих наборов NLP-моделей
Типы, включаемые в большинство обучающих наборов NLP-моделей:
- PERSON — Replace с аналогичными именами
- EMAIL_ADDRESS — Replace с синтетическими адресами
- PHONE_NUMBER — Replace с синтетическими номерами
- CREDIT_CARD / IBAN — Replace или Redact
- LOCATION — Replace с аналогичными местами, если местоположение важно; Redact — если нет
- DATE_OF_BIRTH — Redact; часто требуется группировка по возрасту
Типы, часто исключаемые:
- Общие даты — временные метки помогают временны́м моделям
- Названия организаций — помогают моделям распознавания именованных сущностей
- URL-адреса — помогают моделям ссылок и ссылочных отношений
Руководитель ML и ДПО устанавливают эти правила в утверждённом пресете. Члены команды применяют его. Они не принимают решения по конфигурации.
Пресеты как институциональная память
До пресетов. Правильная конфигурация сущностей хранилась в головах троих специалистов по данным. Они прошли проверку соответствия. Двое уволились в третьем квартале. Знания ушли вместе с ними.
После пресетов. Конфигурация хранится в «ML Dev — Клиентские записи v2.1». Журнал версий показывает, когда он был создан, кто его утвердил и что изменилось по сравнению с v2.0. Новые члены команды используют пресет и получают всё накопленное в нём знание.
Версия 2.1 добавила обнаружение IBAN после того, как проверка выявила его отсутствие. Версия 2.0 была утверждена в феврале 2025 года. Журнал полный.
О том, как работают журналы обработки и потоки проверки ДПО, см. руководство по анонимизации обучающих данных ML в соответствии с GDPR.
Пресеты в сравнении с подходом CNIL
Дела CNIL по ИИ в 2024 году задали чёткий образец. Проверяющие спрашивают не только что было удалено, но и как это управлялось. Общий пресет с записью об одобрении ДПО и журналами обработки отвечает на этот вопрос напрямую.
Произвольная конфигурация — нет. Тот же пробел существует в других делах европейских органов по защите данных, следующих логике CNIL. Подробнее о подходе CNIL к ИИ см. руководство по соответствию CNIL GDPR для ИИ.
Заключение
Документация говорит членам команды, что делать. Пресеты делают это простым — и обязательным — каждый раз одинаково.
Для обучающих наборов ML согласованность — это одновременно юридическое требование и техническое. Пресет удовлетворяет обоим сразу.
Органы по защите данных, изучающие практики ИИ, хотят видеть доказательства единообразной анонимизации. Пресет, применяемый одинаково ко всей работе с наборами данных, — это наиболее убедительное доказательство, которое вы можете предоставить.