Една скрипта не е доволна
Секој тим за наука на податоци напишал нешто вакво:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Ова ги заменува адресите за е-пошта. Само тоа прави. Во наборот на податоци сè уште постојат имиња, телефонски броеви и медицински идентификатори. Тоа сè уште нема да помине GDPR ревизија.
Раскинот помеѓу "ги анонимизував е-пораките" и "овој набор на податоци е GDPR-усогласен" е голем. Тимовите постојано го потценуваат тоа.
Зошто GDPR ги ограничува употребите за обука на ML
Членот 5(1)(б) од GDPR е клучното правило. Тоа се нарекува принцип на ограничување на намената. Личните записи може да се користат само за намената за која се собрани.
Нарачките на клиентите биле собрани за исполнување на нарачките. Не за обука на модел за препораки. Здравствените досиеа биле собрани за лекување. Не за обука на модел за предвидување на повторни хоспитализации. Одговорите на анкетите биле собрани за повратни информации за производот. Не за обука на класификатор на чувства.
За да ги користат тие записи за обука на ML, тимот треба едно од трите:
- Изречна согласност од секое лице за намената на ML - тешко да се добие, честопати невозможно ретроспективно
- Проценка на легитимниот интерес која покажува дека употребата за ML е компатибилна - правно несигурно, зависно од DPA
- Анонимизација - замена или отстранување на личните детали за да наборот на податоци повеќе не биде личен под GDPR
Правилната анонимизација дава најголема правна сигурност. Предизвикот е да се направи правилно секој пат.
Проблемот со еднократните скрипти
Тимовите кои пишуваат нова Python скрипта за секој набор на податоци создаваат кумулативни проблеми.
Нецелосна покриеност. Скрипта изградена за една шема ги пропушта новите полиња. Колона со клинички белешки додадена пред шест месеци? Не е во регексот. Поле за средно име? Скриптата обработува само шаблони за прво и последно ime.
Нема конзистентност. Наборот на податоци A е обработен со script_v1. Наборот B ја користел script_v3. Наборот C го обработил различен член на тимот. Спојот на наборот за обука има три различни методи. DPO не може да го сертифицира.
Нема ревизорска трага. Скриптата се изврши. Што промени? Кои ентитети беа пронајдени? Без записи за обработка, усогласеноста е невозможна. Кога ревизорот на DPA прашува "Како знаете дека овој набор за обука е чист?", одговорот "Извршивме Python скрипта" не е доволен.
Drift на моделот. Регекс шаблоните кои работеле во 2023 година ги пропуштаат новите формати на идентификатори од 2024. Скриптите не се ажурираат сами.
Упатство за обработка во пакет
Тим за здравствена вештачка интелигенција треба да анонимизира 8.000 пациентски записи. Американскиот тим треба пристап од канцеларија во ЕУ. Се применува Schrems II - записите со потекло од ЕУ не можат да одат во инфраструктура во САД без соодветни заштитни мерки.
Традиционален пат: Инженер за податоци пишува прилагодена скрипта. Два до три дена на развој. Еден до два дена на преглед од DPO. Еден ден на итерации. Вкупно: четири до шест дена. Проектот за ML се одложува.
Пат со обработка во пакет:
- Извезете ги 8.000 записи како CSV
- Прикачете во обработка во пакет
- Поставете типови на ентитети: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Изберете метод: Replace (заменува реалистични синтетички вредности за зачувување на структурата)
- Обработете: 45 минути за 8.000 записи
- Преземете го чистиот CSV
- DPO ги прегледува метаподатоците за обработка - ентитети пронајдени по запис, применети методи: 2 часа
- DPO одобрува. Трансферот продолжува.
Вкупно време: 45 минути плус 2 часа прегледување од DPO. Наместо четири до шест дена.
Погледнете го водичот за обука според EU AI Act за тоа како истите чекори ги исполнуваат обврските според член 10.
Replace наспроти Redact за употреба во ML
Методот на анонимизација е важен за квалитетот на моделот.
Redact го заменува PII со токен како [REDACTED]. Ова функционира за модели за откривање PII. За други задачи - анализа на чувства, класификација, препораки - штети. Моделот учи дека [REDACTED] е специјален токен. Не може да учи од природната дистрибуција на имиња и вредности.
Replace го заменува "Иван Петров" со "Марко Симоновиќ." Го заменува "ismith@company.com" со "msimovic@synthetic.com." Структурата останува нетакната. Поставувањето на ентитети, шаблоните на ко-појавување, текот на реченицата - сите зачувани. Моделот учи од реалистичен контекст.
За наборите за обука на ML, Replace е вистинскиот избор. Моделот не ги учи лажните вредности. Ги учи шаблоните околу нив. Тоа е она што е важно.
Schrems II и прекугранични трансфери
Пресудата Schrems II (CJEU, 2020) ја поништи EU-US Privacy Shield. Записите со потекло од ЕУ не можат да одат во инфраструктура за ML во САД - AWS US-East, GCP US-Central - без соодветни заштитни мерки за трансфер.
Трите главни заштитни мерки се:
- Стандардни договорни клаузули со Проценка на влијанието на трансферот
- Обврзувачки корпоративни правила за трансфери во рамките на корпоративна група
- Дерогација за анонимизирани записи - правилно анонимизираните датотеки повеќе не се лични под GDPR и се ослободени од правилата за трансфер
За тимовите кои користат инфраструктура во САД со набори со потекло од ЕУ, правилната анонимизација го отстранува проблемот со Schrems II. Чистиот набор на податоци не е личен. Може слободно да се движи.
Тоа е една од најсилните практични придобивки на анонимизацијата во пакет. Прави повеќе од задоволување на GDPR. Целосно ги отстранува прекуграничните пречки.
За повеќе информации за ограничувањата на трансфер, погледнете го водичот за ограничување на намената на GDPR.
Што да му дадете на DPO
При поднесување чист набор за обука за одобрување од DPO, приложете ги овие пет ставки:
- Опис на изворот. Каков беше оригиналниот набор на податоци? Која беше намената на собирањето? Кои лични категории содржеше?
- Конфигурација за анонимизација. Кои типови на ентитети беа откривани и заменети? Кој метод беше применет?
- Метаподатоци за обработка. Броеви на ентитети по запис, оценки на доверба, вкупно обработени записи.
- Проценка на резидуален ризик. Која е веројатноста дека поединецот може да биде повторно идентификуван? За анонимизација со методот Replace со 285+ типови на ентитети на структуриран текст, оваа веројатност е многу ниска.
- Планирана употреба. Кој модел ќе биде обучуван? Која е намената на обуката?
Обработката во пакет автоматски ги обезбедува ставките 2 и 3. Ставките 1, 4 и 5 доаѓаат од научникот за податоци.
Погледнете го batch API на anonym.legal за тоа како метаподатоците за обработка се враќаат со секоја задача.
Што добивате
GDPR-усогласени ML набори се постижливи без прилагодени скрипти, без повеќедневни одложувања и без губење на квалитетот на моделот.
Методот Replace ги задржува природните јазични карактеристики кои се важни за обука на NLP. Ги отстранува личните детали кои создаваат GDPR ризик.
45 минути обработка во пакет е разликата помеѓу одложена проверка на усогласеноста и едноставно одобрување од DPO.