anonym.legal
Назад към блогаТехнически

GDPR-съвместими данни за ML обучение...

GDPR ограничава използването на лични данни за обучение по ML извън първоначалната им цел за събиране.

April 19, 20267 мин. четене
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-съвместими данни за ML обучение: Анонимизиране на 10 000 записа без писане на код

Всеки екип за наука за данни, работещ с GDPR-субектни данни, е написал някаква версия на този скрипт:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Това не е съответствие с GDPR. Това е подмяна на имейл адрес. Наборът от данни все още съдържа имена, телефонни номера, идентификатори на медицински досиета и дузина други категории PII, които ще доведат до несъответствие.

Разликата между „анонимизирах имейлите“ и „този набор от данни е съвместим със GDPR за обучение по машинно обучение“ е голяма, последователна и рутинно подценявана.

Защо GDPR ограничава използването на данни за ML обучение

Принципът на GDPR за ограничаване на целта (член 5, параграф 1, буква б) гласи, че личните данни могат да се събират за конкретни, изрични и законни цели и да не се обработват допълнително по начин, несъвместим с тези цели.

Данните за клиентите, събрани за изпълнение на поръчка, не са събрани с цел обучение на модел за препоръки. Данните за здравните досиета, събрани за лечение, не са събрани за обучение на модел за прогнозиране на обратно приемане. Данните от отговорите на проучването, събрани за обратна връзка за продукта, не бяха събрани за обучение на модел за анализ на настроението.

Използването на тези данни за обучение по ML изисква или:

  1. Изрично съгласие от всеки субект на данни за целите на обучението по ML (оперативно сложно, често невъзможно със задна дата)
  2. Оценка на легитимен интерес, показваща, че целта на обучението е съвместима с оригиналната колекция (правно несигурна, зависима от DPA)
  3. Анонимизиране — премахване или замяна на PII, така че данните вече да не са лични данни съгласно GDPR

Правилното анонимизиране е пътят с най-малко съпротивление и най-голяма правна сигурност. Предизвикателството е да го правите правилно и последователно.

Проблемът с ad-hoc скриптове за анонимизиране

Екипите за наука за данни, които пишат еднократни скриптове на Python за всеки нов набор от данни, създават проблеми при комбинирането:

Непълно покритие: Скрипт, написан за обработка на схема на един набор от данни, пропуска PII в колони, добавени след последната актуализация на схемата. Полето за клинични бележки е добавено преди 6 месеца: не е в модела на регулярен израз. Поле за средно име на клиента: регулярният израз обработва само шаблони FIRST_NAME и LAST_NAME.

**Несъответствие в наборите от данни: ** Набор от данни A беше анонимизиран със script_v1.py. Набор от данни B беше анонимизиран със script_v3.py. Набор от данни C беше анонимизиран от друг член на екипа, който не знаеше за script_v3.py. Обединеният набор от данни за обучение има три различни методологии за анонимизиране. DPO не може да го удостовери.

Няма одитна пътека: Скриптът се изпълни. Какво промени? Кои обекти са намерени? В кои редове? Без обработка на метаданни документацията за съответствие е невъзможна. Когато одитор на DPA попита „откъде знаете, че този набор от данни за обучение е анонимизиран?“, „изпълнихме скрипт на Python“ не е задоволителен отговор.

Дрейф на модела: Моделите на регулярни изрази, които са работили с данни от 2023 г., не откриват нови формати на идентификатори, въведени в данните от 2024 г. (нов SSN формат, различни шаблони на имейл домейни, развиващи се формати на телефонни номера). Скриптовете не се актуализират сами.

Подходът за групова обработка

Екипът за научни данни на здравна компания с изкуствен интелект трябва да анонимизира 8000 досиета на пациенти, преди екипът им в САЩ да има достъп до тях от офиса в ЕС (прилага се ограничение за трансграничен трансфер на данни на Schrems II).

Традиционен подход: Инженер по данни пише персонализиран скрипт за анонимизиране на Python. Време: 2-3 дни разработка, 1-2 дни тестване и преглед с DPO, 1 ден итерация. Общо: 4-6 дни. Графикът на ML проекта се изплъзва.

Подход за групова обработка:

  1. Експортирайте 8000 записа като CSV (стандартен формат за наука за данни)
  2. Качете за пакетна обработка
  3. Конфигурирайте типове обекти: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Изберете метод: Замяна (заменя с реалистични фалшиви данни, за да запази структурата на набора от данни за обучението на ML)
  5. Процес: 45 минути за 8000 записа
  6. Изтеглете анонимизиран CSV
  7. DPO преглежда обработка на метаданни (открити обекти по запис, приложени методи): 2 часа
  8. DPO одобрява, споделянето на данни продължава

Общо време: 45 минути обработка + 2 часа DPO преглед срещу 4-6 дни инженеринг. Графикът на ML остава на път.

Replace срещу Redact for ML Training Data

Изборът на метод за анонимизиране има значение за помощната програма за ML:

Редактиране (черна лента / заместване на контейнер): Заменя PII с [REDACTED] или подобен токен. Полученият набор от данни има последователни маркери за заместители, където е PII. За NLP модели, обучени да откриват PII, това създава етикетиран набор от данни. За модели, обучени за задачи надолу по веригата (чувство, класификация, препоръка), токенът [REDACTED] нарушава моделирането на естествения език — моделът научава, че [REDACTED] е специален токен, вместо да се учи от разпространението на реални имена и стойности.

Замяна (реалистично синтетично заместване): Заменя „Джон Смит“ с „Дейвид Чен“ (реалистично, но различно име). Имейлът „jsmith@company.com“ става „dchen@synthetic.com“. Полученият набор от данни поддържа разпределения на естествения език — структура на изреченията, разположение на обекти, модели на съвместно възникване — които са важни за обучението по модел NLP.

Специално за данни за обучение на ML, Replace е подходящият метод. Моделът не се научава да предсказва конкретните фалшиви стойности (те са случайни замествания), но се учи от структурните и контекстуални модели за това как имена, имейли и други обекти се появяват в текста.

Schrems II и трансгранични потоци от данни

Решението Schrems II (CJEU, 2020) направи невалиден Щитът за поверителност между ЕС и САЩ, създавайки несигурност за прехвърлянето на данни от сървъри на ЕС към САЩ. Практическото въздействие върху науката за данните: Данните за обучение с произход от ЕС не могат да се изпращат до базирана в САЩ инфраструктура за машинно обучение (AWS US-East, GCP US-Central) без адекватни предпазни мерки за трансфер.

Адекватните предпазни мерки включват:

  • Стандартни договорни клаузи (SCC) с оценка на въздействието върху прехвърлянето
  • Обвързващи корпоративни правила (BCR) за вътрешногрупови трансфери
  • Дерогация за анонимизирани данни: Надлежно анонимизираните данни не са лични данни съгласно GDPR и не подлежат на ограничения за прехвърляне

За екипи, използващи базирана в САЩ ML инфраструктура с данни от ЕС, правилното анонимизиране елиминира проблема Schrems II изцяло. Анонимизираният набор от данни вече не е лични данни — той може да бъде прехвърлян, съхраняван и обработван във всяка инфраструктура без изисквания за механизъм за трансфер.

Документация за одобрение на DPO

Когато изпращате анонимни данни за обучение на DPO за одобрение, предоставете:

  1. Описание на изходните данни: Какъв беше първоначалният набор от данни, каква беше целта на събирането му, какви категории лични данни съдържаше?

  2. Конфигурация на анонимизирането: Кои типове обекти са открити и заменени? Какъв метод е приложен?

  3. Обработване на метаданни: Брой обекти, открити на запис, резултати за сигурност на откриване, общ брой обработени записи

  4. Оценка на остатъчния риск: Каква е вероятността всяко лице да бъде повторно идентифицирано от анонимния набор от данни? За анонимизиране на метода на замяна с 285+ типа обекти, приложени към структуриран текст, тази вероятност е много ниска за повечето набори от данни за обучение.

  5. Предвидена употреба: Какъв ML модел ще бъде обучен? Каква е целта на обучението?

Метаданните за обработка от групова обработка осигуряват автоматично точки 2-3. Точки 1, 4 и 5 изискват информация от специалиста по данни.

Заключение

Съвместимите с GDPR данни за обучение на ML са постижими без ad-hoc скриптове, без многодневни инженерни забавяния и без да се жертва помощната програма за набор от данни за обучение на модел. Методът за анонимизиране на Replace запазва свойствата на естествения език, които правят данните полезни за обучението на модел NLP, като същевременно премахва свойствата на личните данни, които създават отговорност на GDPR.

45 минути пакетна обработка е разликата между забавящ се във времето преглед на съответствието и директно подписване на DPO.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.