anonym.legal
Назад к блогуТехнические

GDPR-Совместимые Данные Для Обучения ML...

GDPR ограничивает использование персональных данных для обучения ML за пределами их первоначальной цели сбора.

April 19, 20267 мин чтения
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-Совместимые Данные Для Обучения ML: Анонимизация 10,000 Записей Без Написания Кода

Каждая команда по анализу данных, работающая с данными, подпадающими под действие GDPR, написала какую-то версию этого скрипта:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Это не соответствует требованиям GDPR. Это замена адреса электронной почты. Набор данных все еще содержит имена, номера телефонов, идентификаторы медицинских записей и десятки других категорий PII, которые приведут к нарушениям соблюдения.

Разрыв между "Я анонимизировал электронные адреса" и "этот набор данных соответствует требованиям GDPR для обучения ML" велик, значителен и регулярно недооценивается.

Почему GDPR Ограничивает Использование Данных Для Обучения ML

Принцип ограничения цели GDPR (Статья 5(1)(b)) гласит, что персональные данные могут быть собраны для определенных, явных и законных целей и не могут обрабатываться дальше способом, несовместимым с этими целями.

Данные клиентов, собранные для выполнения заказов, не были собраны с целью обучения модели рекомендаций. Данные медицинских записей, собранные для лечения, не были собраны для обучения модели прогнозирования повторной госпитализации. Данные ответов на опросы, собранные для обратной связи по продукту, не были собраны для обучения модели анализа настроений.

Использование этих данных для обучения ML требует либо:

  1. Явного согласия от каждого субъекта данных для цели обучения ML (операционно сложно, часто невозможно ретроактивно)
  2. Оценки законного интереса, показывающей, что цель обучения совместима с первоначальным сбором (юридически неопределенно, зависит от DPA)
  3. Анонимизации — удаления или замены PII, чтобы данные больше не были персональными данными в соответствии с GDPR

Правильная анонимизация является путем наименьшего сопротивления и наибольшей юридической определенности. Проблема заключается в том, чтобы сделать это правильно и последовательно.

Проблема С Временными Скриптами Анонимизации

Команды по анализу данных, пишущие одноразовые Python-скрипты для каждого нового набора данных, создают нарастающие проблемы:

Неполное покрытие: Скрипт, написанный для обработки схемы одного набора данных, пропускает PII в столбцах, добавленных с момента последнего обновления схемы. Поле клинических заметок, добавленное 6 месяцев назад: не в шаблоне regex. Поле среднего имени клиента: regex обрабатывает только шаблоны FIRST_NAME и LAST_NAME.

Несогласованность между наборами данных: Набор данных A был анонимизирован с помощью script_v1.py. Набор данных B был анонимизирован с помощью script_v3.py. Набор данных C был анонимизирован другим членом команды, который не знал о script_v3.py. Объединенный набор данных для обучения имеет три разные методологии анонимизации. DPO не может его сертифицировать.

Отсутствие аудиторского следа: Скрипт был запущен. Что он изменил? Какие сущности были найдены? В каких строках? Без обработки метаданных соблюдение невозможно. Когда аудитор DPA спрашивает "как вы знаете, что этот набор данных для обучения анонимизирован?", "мы запустили Python-скрипт" — это не удовлетворительный ответ.

Сдвиг модели: Шаблоны regex, которые работали с данными 2023 года, не обнаруживают новые форматы идентификаторов, введенные в данных 2024 года (новый формат SSN, разные шаблоны доменов электронной почты, развивающиеся форматы номеров телефонов). Скрипты не обновляют себя.

Подход Пакетной Обработки

Команде по анализу данных компании в области ИИ в здравоохранении необходимо анонимизировать 8,000 записей пациентов, прежде чем их команда в США сможет получить к ним доступ из офиса в ЕС (применяется ограничение на трансграничную передачу данных Schrems II).

Традиционный подход: Инженер данных пишет пользовательский Python-скрипт анонимизации. Время: 2-3 дня разработки, 1-2 дня тестирования и проверки с DPO, 1 день итерации. Всего: 4-6 дней. Сроки проекта ML сдвигаются.

Подход пакетной обработки:

  1. Экспортируйте 8,000 записей в CSV (стандартный формат для анализа данных)
  2. Загрузите для пакетной обработки
  3. Настройте типы сущностей: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Выберите метод: Замена (заменяет на реалистичные фальшивые данные для сохранения структуры набора данных для обучения ML)
  5. Обработка: 45 минут для 8,000 записей
  6. Скачайте анонимизированный CSV
  7. DPO проверяет метаданные обработки (найденные сущности на запись, примененные методы): 2 часа
  8. DPO одобряет, передача данных продолжается

Общее время: 45 минут обработки + 2 часа проверки DPO против 4-6 дней инженерии. Сроки ML остаются в графике.

Замена против Редактирования для Данных Обучения ML

Выбор метода анонимизации имеет значение для полезности ML:

Редактирование (черная полоса / замена заполнителя): Заменяет PII на [REDACTED] или аналогичный токен. В результате набор данных имеет последовательные токены заполнителей, где была PII. Для моделей NLP, обученных для обнаружения PII, это создает размеченный набор данных. Для моделей, обученных на последующих задачах (анализ настроений, классификация, рекомендации), токен [REDACTED] нарушает естественное языковое моделирование — модель учится, что [REDACTED] является специальным токеном, а не учится на распределении реальных имен и значений.

Замена (реалистичная синтетическая замена): Заменяет "John Smith" на "David Chen" (реалистичное, но другое имя). Электронная почта "jsmith@company.com" становится "dchen@synthetic.com". В результате набор данных сохраняет распределения естественного языка — структуру предложений, размещение сущностей, паттерны совместного появления — которые важны для обучения моделей NLP.

Для данных обучения ML в частности, Замена является подходящим методом. Модель не учится предсказывать конкретные фальшивые значения (они являются случайными заменами), но она учится на структурных и контекстуальных паттернах того, как имена, электронные почты и другие сущности появляются в тексте.

Schrems II и Трансграничные Потоки Данных

Решение Schrems II (CJEU, 2020) аннулировало Щит конфиденциальности ЕС-США, создав неопределенность для передачи данных с серверов ЕС на серверы США. Практическое воздействие на анализ данных: данные для обучения, происходящие из ЕС, не могут быть отправлены на инфраструктуру ML, базирующуюся в США (AWS US-East, GCP US-Central), без адекватных мер защиты передачи.

Адекватные меры защиты включают:

  • Стандартные договорные положения (SCC) с оценкой воздействия на передачу
  • Обязательные корпоративные правила (BCR) для внутригрупповых передач
  • Отступление для анонимизированных данных: Правильно анонимизированные данные не являются персональными данными в соответствии с GDPR и не подлежат ограничениям на передачу

Для команд, использующих инфраструктуру ML, базирующуюся в США, с данными, происходящими из ЕС, правильная анонимизация полностью устраняет проблему Schrems II. Анонимизированный набор данных больше не является персональными данными — его можно передавать, хранить и обрабатывать на любой инфраструктуре без требований к механизмам передачи.

Документация Для Одобрения DPO

При подаче анонимизированных данных для обучения DPO для одобрения предоставьте:

  1. Описание исходных данных: Какой был оригинальный набор данных, какова была его цель сбора, какие категории персональных данных он содержал?

  2. Конфигурация анонимизации: Какие типы сущностей были обнаружены и заменены? Какой метод был применен?

  3. Метаданные обработки: Количество обнаруженных сущностей на запись, оценки уверенности в обнаружении, всего обработанных записей

  4. Оценка остаточного риска: Какова вероятность того, что любой человек может быть повторно идентифицирован из анонимизированного набора данных? Для анонимизации методом Замены с применением 285+ типов сущностей к структурированному тексту эта вероятность очень низка для большинства наборов данных для обучения.

  5. Предполагаемое использование: Какую модель ML будут обучать? Какова цель обучения?

Метаданные обработки из пакетной обработки автоматически предоставляют пункты 2-3. Пункты 1, 4 и 5 требуют ввода специалиста по данным.

Заключение

Данные для обучения ML, соответствующие требованиям GDPR, достижимы без временных скриптов, без многодневных задержек в инженерии и без ущерба для полезности набора данных для обучения модели. Метод анонимизации Замена сохраняет свойства естественного языка, которые делают данные полезными для обучения моделей NLP, одновременно удаляя свойства персональных данных, создающие юридическую ответственность по GDPR.

45 минут пакетной обработки — это разница между задержкой в сроках из-за проверки соблюдения и простым одобрением DPO.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.