anonym.legal
Назад към блогаТехнически

Възпроизводима поверителност: Защо ML екипите се нуждаят от предварително зададени конфигурации, а не само от документация

Анонимизирането на данните за обучение по ML трябва да бъде последователно и възпроизводимо. Ако изследователите на данни A и B прилагат различни типове обекти, наборите от данни за обучение са непоследователни. CNIL разследва AI компании през 2024 г. за неправилно използване на данни за обучение. Предварителните настройки са техническото решение.

March 15, 20266 мин. четене
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Възпроизводима поверителност: Защо ML екипите се нуждаят от предварително зададени конфигурации, а не само от документация

DPO одобри документа за процедурата за анонимизиране. Той уточнява: премахване на имена, имейли, телефонни номера и дати на раждане от набори от данни за обучение с помощта на метода Replace. Документът е 4 страници и се намира в уикито за съответствие.

Дванадесет специалисти по данни се консултират с него при стартирането на проекта. Те конфигурират свои собствени версии на инструмента за анонимизиране. Някои добавят национални документи за самоличност. Някои включват IP адреси. Някои използват Redact вместо Replace. Три месеца по-късно наборите от данни за обучение са непоследователни.

CNIL (DPA на Франция) разследва множество AI компании през 2024 г. за неправилно използване на лични данни в набори от данни за обучение. Разследванията изследваха не само дали е настъпила анонимизация, но и колко последователно се прилага.

Необходима е документация. Не е достатъчно. Техническото решение е предварителна настройка.

Защо данните за ML обучение изискват специфична конфигурация

Анонимизирането на данни за обучение по ML има изисквания, които общото анонимизиране на документи няма:

Replace, not Redact: Моделите на невронни езици, обучени върху текст, където имената са заменени с [REDACTED] токени, научават, че [REDACTED] е специален идентификатор, който се появява в позициите на името. Това създава нежелано поведение на модела. Методът Replace (заместване на „Джон Смит“ с „Дейвид Чен“) запазва статистическото разпределение на имената в текста, като същевременно премахва идентифициращата информация. Моделът се учи от реалистични разпределения име-позиция, а не от символ на маска.

Съгласуваност в набора от данни: Набор от данни за обучение, при който 70% от имената са заменени и 30% са [REDACTED], създава непоследователен сигнал за обучение. Всички записи трябва да се обработват идентично.

Постоянен избор на обект: Ако наборът от данни за обучение съдържа здравни данни, премахването на имена, но не и дати на раждане в някои записи, създава несъответствие. Всичките 12 специалисти по данни трябва да премахнат един и същ набор от типове обекти.

Без свръханонимизиране: Замяната на метода е прекалено приложена — премахване на дати, които са просто клеймото за време, а не дата на раждане — влошава полезността на набора от данни, без да подобрява съответствието. Одобрената предварителна настройка дефинира точно кои обекти за дата да бъдат премахнати (дата на раждане, а не общи клеймца за време).

Възпроизводимост при изпълнения: Ако същият набор от данни трябва да бъде обработен повторно (напр. след откриване на пропуснат тип обект), повторната обработка със същата предварително зададена настройка води до последователен изход. Ad-hoc конфигурациите не са възпроизводими.

Проблемът с 12-те изследователи на данни

Екипът за ML на европейска финтех компания използва набор от данни за обучение, извлечен от регистрационни файлове за взаимодействие с клиенти. DPO одобри целта на обработката (обучение на модел за откриване на измами) с условия: всички имена на клиенти, имейли, телефонни номера и идентификатори на плащане трябва да бъдат заменени с помощта на метода Replace преди всяко обучение на модел.

Без предварително зададени настройки:

  • Data scientist 1 премахва имена, имейли, телефонни номера (не включва идентификатори за плащане)
  • Data scientist 2 включва идентификатори на плащане, но използва Redact not Replace
  • Data scientist 3 следва точно документа за процедурата
  • Учените по данни 4-12 варират

Резултат: 12 различно обработени версии на данните за обучение. Обединеният набор от данни е частично несъответстващ, частично свръханонимизиран и статистически непоследователен.

С одобрена от DPO предварително зададена настройка:

  • DPO създава предварително зададено „ML Training — Fraud Detection“ с точни типове обекти и метод на замяна
  • Предварителна настройка, споделена с всички 12 специалисти по данни с инструкции: „Използвайте тази предварителна настройка за подготовка на всички данни за обучение“
  • Предварителната настройка не може да се променя без DPO преглед (контрол на достъпа до конфигурацията)

Резултат: Всички 12 изследователи на данни произвеждат идентичен изход за анонимизиране. Обединеният набор от данни е последователен. Годишният одит за съответствие с AI минава без констатации.

Предходна година: 3 констатации, свързани с непоследователно анонимизиране на данните за обучението по ML. Пост-предварителна настройка: 0 констатации.

GDPR AI акт Пресеч

Законът за ИИ на ЕС (в сила от август 2024 г.) добавя изисквания за съответствие за системи с ИИ, използващи лични данни за обучение. Високорисковите AI системи трябва да документират своите данни за обучение, включително прилаганите мерки за анонимизиране.

Принципът на GDPR за ограничаване на целта (член 5, параграф 1, буква б) ограничава използването на лични данни за обучение по ML без конкретно правно основание. Принудителните действия на CNIL от 2024 г. срещу компании с изкуствен интелект се фокусираха върху това пресичане: лични данни, събрани за предоставяне на услуги, използвани за обучение без подходящо правно основание или анонимизиране.

Изискванията за документация както на GDPR, така и на Закона за изкуствен интелект са по-лесни за удовлетворяване, когато процесът на анонимизиране на данните за обучение е технически наложен чрез предварително зададени настройки:

  • Предварително зададено име и конфигурация: документирана методология за анонимизиране
  • Регистрационни файлове за обработка: доказателство, че методологията е приложена към конкретни набори от данни
  • DPO одобрение: записано решение, разрешаващо предварително зададената конфигурация

Това създава одитна пътека, която и двата регламента изискват.

Предварително зададена конфигурация за данни за обучение на ML

Типове обекти за повечето NLP данни за обучение:

  • PERSON (имена — Заменете с подобни имена)
  • EMAIL_ADDRESS (замяна със синтетични имейли)
  • PHONE_NUMBER (Замяна със синтетични телефонни номера)
  • CREDIT_CARD / IBAN (Замяна или редактиране — данни за плащане)
  • LOCATION (Заменете с подобни местоположения, ако е необходимо географско местоположение за модела; Редактирайте, ако не)
  • DATE_OF_BIRTH (Редактиране — често е необходимо обобщаване на възрастта)

Типове обекти обикновено НЕ са включени за NLP данни за обучение:

  • Общи дати (не дата на раждане) — клеймото за време и датите в текста често са необходими за временно моделиране
  • Имена на организации — често необходими за обучение за разпознаване на обекти
  • URL адреси — често необходими за свързване и извличане на препратки

Водещият ML и DPO определят тези разграничения в одобрената предварителна настройка. Индивидуалните специалисти по данни не вземат тези решения — те прилагат предварително зададената настройка.

Институционални познания и предварително зададени версии

Предварителните настройки служат за институционална функция на паметта:

Преди предварително зададени настройки: Правилната конфигурация на обект за данни за обучение на ML живееше в съзнанието на тримата специалисти по данни, които бяха работили в процеса на преглед на съответствието. Когато двама от тях напуснаха през Q3, институционалните знания бяха загубени.

След предварително зададени настройки: Конфигурацията е кодирана в „ML Training — Customer Data v2.1“. Историята на версиите показва кога е създадена, кой я е одобрил и какво се е променило между v2.0 и v2.1. Новите изследователи на данни използват предварително зададената настройка и наследяват институционалните знания, вградени в нея.

Версия 2.1 добави откриване на IBAN, след като прегледът за съответствие установи, че липсва. Записите на версия 2.0 показват, че е одобрен през февруари 2025 г. Одитната пътека е пълна.

Заключение

Документацията казва на членовете на екипа какво да правят. Предварително зададените настройки правят технически лесно — и технически изпълнимо — да го правите последователно.

Конкретно за данните за обучение на ML съгласуваността е както изискване за съответствие (GDPR, AI Act), така и техническо изискване (обучението на модела изисква последователна предварителна обработка). Предварителната настройка удовлетворява и двете едновременно.

CNIL и други DPA, които разследват практики за данни за обучение на AI, ще търсят доказателства за систематично, последователно анонимизиране. Предварителната настройка, приложена еднакво в цялата подготовка на данни за обучение, е най-силното налично доказателство.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.