Воспроизводимая конфиденциальность: почему командам ML нужны предустановки конфигурации, а не только документация
DPO одобрил документ процедуры анонимизации. В нем указано: удалить имена, электронные почты, номера телефонов и даты рождения из обучающих наборов данных с использованием метода Замены. Документ состоит из 4 страниц и хранится в вики по соблюдению.
Двенадцать ученых-данных консультируются с ним на старте проекта. Они настраивают свои собственные версии инструмента анонимизации. Некоторые добавляют национальные идентификаторы. Некоторые включают IP-адреса. Некоторые используют Зачеркнуть вместо Заменить. Через три месяца обучающие наборы данных становятся непоследовательными.
CNIL (французский орган по защите данных) расследовал несколько компаний ИИ в 2024 году за неправильное использование персональных данных в обучающих наборах данных. Расследования проверяли не только то, произошло ли анонимизация, но и насколько последовательно она была применена.
Документация необходима. Но этого недостаточно. Техническим решением являются предустановки.
Почему данные для обучения ML требуют конкретной конфигурации
Анонимизация данных для обучения ML имеет требования, которые не применимы к общей анонимизации документов:
Заменить, а не Зачеркнуть: Нейронные языковые модели, обученные на тексте, где имена заменены на [ЗАЧЕРКНУТО] токены, учат, что [ЗАЧЕРКНУТО] — это специальный идентификатор, появляющийся на позициях имен. Это создает нежелательное поведение модели. Метод Замены (замена "Джон Смит" на "Дэвид Чен") сохраняет статистическое распределение имен в тексте, удаляя идентифицирующую информацию. Модель учится на реалистичных распределениях имен, а не на токене маски.
Последовательность по всему набору данных: Обучающий набор данных, где 70% имен заменены, а 30% [ЗАЧЕРКНУТО], производит непоследовательный обучающий сигнал. Все записи должны обрабатываться идентично.
Последовательный выбор сущностей: Если обучающий набор данных содержит данные о здоровье, удаление имен, но не дат рождения в некоторых записях создает непоследовательность. Все 12 ученых-данных должны удалить один и тот же набор типов сущностей.
Без чрезмерной анонимизации: Метод Замены, применяемый чрезмерно — удаление дат, которые являются просто временными метками, а не датами рождения — ухудшает полезность набора данных, не улучшая соблюдение. Одобренная предустановка точно определяет, какие сущностные данные удалять (дата рождения, а не общие временные метки).
Воспроизводимость между запусками: Если один и тот же набор данных необходимо переработать (например, после обнаружения пропущенного типа сущности), переработка с той же предустановкой дает последовательный результат. Спонтанные конфигурации не воспроизводимы.
Проблема 12-ученых-данных
ML-команда европейской финтех-компании использует обучающий набор данных, полученный из журналов взаимодействия с клиентами. DPO одобрил цель обработки (обучение модели для обнаружения мошенничества) с условиями: все имена клиентов, электронные почты, номера телефонов и идентификаторы платежей должны быть заменены с использованием метода Замены перед любым обучением модели.
Без предустановок:
- Ученый-данных 1 удаляет имена, электронные почты, номера телефонов (не включает идентификаторы платежей)
- Ученый-данных 2 включает идентификаторы платежей, но использует Зачеркнуть, а не Заменить
- Ученый-данных 3 точно следует документу процедуры
- Ученые-данных 4-12 варьируются
Результат: 12 по-разному обработанных версий обучающих данных. Объединенный набор данных частично не соответствует требованиям, частично чрезмерно анонимизирован и статистически непоследователен.
С одобренной DPO предустановкой:
- DPO создает предустановку "Обучение ML — Обнаружение мошенничества" с точными типами сущностей и методом Замены
- Предустановка делится со всеми 12 учеными-данных с инструкциями: "Используйте эту предустановку для всей подготовки обучающих данных"
- Предустановка не может быть изменена без проверки DPO (контроль доступа к конфигурации)
Результат: Все 12 ученых-данных производят идентичный результат анонимизации. Объединенный набор данных последователен. Годовой аудит соблюдения ИИ проходит без замечаний.
В предыдущем году: 3 замечания, связанные с непоследовательной анонимизацией данных для обучения ML. После предустановки: 0 замечаний.
Пересечение GDPR и Закона о ИИ
Закон о ИИ ЕС (вступил в силу с августа 2024 года) добавляет требования к соблюдению для ИИ-систем, использующих персональные данные для обучения. ИИ-системы высокого риска должны документировать свои данные для обучения, включая примененные меры анонимизации.
Принцип ограничения цели GDPR (Статья 5(1)(b)) ограничивает использование персональных данных для обучения ML без конкретной юридической основы. Действия CNIL в 2024 году против компаний ИИ сосредоточились на этом пересечении: персональные данные, собранные для предоставления услуг, используются для обучения без адекватной юридической основы или анонимизации.
Требования к документации как GDPR, так и Закона о ИИ легче выполнить, когда процесс анонимизации данных для обучения технически обеспечивается через предустановки:
- Имя и конфигурация предустановки: документированная методология анонимизации
- Журналы обработки: доказательство того, что методология была применена к конкретным наборам данных
- Одобрение DPO: зафиксированное решение, авторизующее конфигурацию предустановки
Это создает след аудита, который требуется обоими регламентами.
Конфигурация предустановки для данных обучения ML
Типы сущностей для большинства данных обучения NLP:
- PERSON (имена — Заменить на похожие имена)
- EMAIL_ADDRESS (Заменить на синтетические электронные почты)
- PHONE_NUMBER (Заменить на синтетические номера телефонов)
- CREDIT_CARD / IBAN (Заменить или Зачеркнуть — данные платежей)
- LOCATION (Заменить на похожие местоположения, если геолокация нужна для модели; Зачеркнуть, если нет)
- DATE_OF_BIRTH (Зачеркнуть — обобщение возраста часто необходимо)
Типы сущностей, которые обычно НЕ включаются для данных обучения NLP:
- Общие даты (не даты рождения) — временные метки и даты в тексте часто необходимы для временного моделирования
- Названия организаций — часто необходимы для обучения распознаванию сущностей
- URL-адреса — часто необходимы для связывания и извлечения ссылок
Руководитель ML и DPO определяют эти различия в одобренной предустановке. Индивидуальные ученые-данных не принимают эти решения — они применяют предустановку.
Институциональные знания и версионирование предустановок
Предустановки выполняют функцию институциональной памяти:
До предустановок: Правильная конфигурация сущностей для данных обучения ML находилась в умах трех ученых-данных, которые прошли процесс проверки соблюдения. Когда двое из них ушли в третьем квартале, институциональные знания были потеряны.
После предустановок: Конфигурация закодирована в "Обучение ML — Данные клиентов v2.1". История версий показывает, когда она была создана, кто ее одобрил и что изменилось между v2.0 и v2.1. Новые ученые-данных используют предустановку и наследуют институциональные знания, встроенные в нее.
Версия 2.1 добавила обнаружение IBAN после того, как проверка соблюдения показала, что оно отсутствует. Записи версии 2.0 показывают, что она была одобрена в феврале 2025 года. След аудита завершен.
Заключение
Документация говорит членам команды, что делать. Предустановки делают это технически простым — и технически обеспечиваемым — для выполнения последовательно.
Для данных обучения ML конкретно последовательность является как требованием соблюдения (GDPR, Закон о ИИ), так и техническим требованием (обучение модели требует последовательной предобработки). Предустановка одновременно удовлетворяет оба.
CNIL и другие органы по защите данных, расследующие практики анонимизации данных для обучения ИИ, будут искать доказательства систематической, последовательной анонимизации. Предустановка, применяемая единообразно ко всем подготовкам данных для обучения, является самым сильным доступным доказательством.
Источники: