Відтворювана конфіденційність: чому командам ML потрібні пресети, а не лише документація
ДПО затвердив план анонімізації. Він охоплює чотири елементи: імена, електронні адреси, номери телефонів і дати народження. Метод — Replace. План займає чотири сторінки та розміщений у вікі комплаєнсу.
Дванадцять дата-сайєнтистів прочитали його на установчій зустрічі. Кожен налаштовує інструмент самостійно. Дехто додає національні ідентифікатори. Дехто додає IP-адреси. Дехто перемикається на Redact. Через три місяці набори даних є непослідовними.
CNIL перевірила кілька AI-компаній у 2024 році. Проблема: неналежне використання персональних даних у наборах для навчання моделей. Вони запитували не просто про те, чи відбувалася анонімізація. Вони запитували, наскільки послідовно вона застосовувалась.
Документація потрібна. Але її недостатньо. Виправленням є пресет.
Чому набори даних ML потребують власної конфігурації
Побудова наборів даних для моделей має унікальні потреби. Загальна анонімізація документів їх не поділяє.
Replace, а не Redact. Моделі, навчені на тексті, де імена стають [REDACTED], навчаються, що цей токен є маркером позиції імені. Це шкодить моделі. Replace замінює «Іван Петренко» на «Дмитро Коваленко». Модель бачить реальні шаблони імен. Вона не бачить токена-маски.
Однаковий процес для всіх записів. Набір, де 70% імен замінено, а 30% — [REDACTED], посилає змішаний сигнал. Кожен запис має пройти ті самі кроки.
Однаковий список сутностей. Якщо набір містить медичні дані, видалення імен, але залишення дат народження в деяких записах, створює прогалини. Всі дванадцять дата-сайєнтистів повинні видаляти однакові типи.
Без надмірного видалення. Видалення дат, що є мітками часу, а не датами народження, зменшує якість набору без жодної вигоди для відповідності. Затверджений пресет вказує, які саме елементи видаляти.
Відтворюваний результат. Якщо набір потрібно обробити знову — скажімо, після виявлення пропущеного типу сутності — пресет дає той самий результат щоразу. Ad-hoc конфігурації — ні.
Проблема дванадцяти дата-сайєнтистів
Команда ML фінтех-компанії в Європі використовує набори даних із журналів клієнтів. ДПО затвердив мету — виявлення шахрайства — з одним правилом: всі імена клієнтів, електронні адреси, номери телефонів і ідентифікатори платежів мають бути замінені перед початком роботи з моделлю.
Без пресетів:
- Особа 1 видаляє імена, електронні адреси та номери телефонів — але пропускає ідентифікатори платежів
- Особа 2 включає ідентифікатори платежів, але використовує Redact замість Replace
- Особа 3 точно дотримується плановий документу
- Особи 4–12 варіюються
Об'єднаний набір є частково невідповідним і частково надмірно обробленим. ДПО не може його сертифікувати.
З пресетом, затвердженим ДПО:
- ДПО створює «ML Dev — Виявлення шахрайства» з точними типами сутностей і методом Replace
- Пресет надається всім дванадцяти людям з одним правилом: використовувати для всієї роботи з наборами даних
- Ніхто не може змінити пресет без погодження з ДПО
Кожна людина тепер виробляє однаковий результат. Об'єднаний набір є послідовним. Щорічний AI-аудит проходить із нульовими знахідками. У попередньому році було три знахідки через непослідовну роботу з наборами даних.
GDPR і Закон про AI
Оновлено для 2026 року
Закон ЄС про AI набрав чинності у серпні 2024 року. Він додає правила для систем AI, що використовують персональні дані для навчання моделей. Системи AI з підвищеним ризиком повинні документувати свої набори даних, включно з тим, яка анонімізація була застосована.
Стаття 5(1)(b) GDPR — правило обмеження мети — блокує використання персональних даних без чіткої правової підстави. Справи CNIL 2024 року були зосереджені на цій прогалині: дані, зібрані для однієї послуги, використовувались для навчання моделей без дійсної підстави або анонімізації.
Пресети допомагають задовольнити обидва набори правил:
- Назва та конфігурація пресету: задокументований метод
- Журнали обробки: доказ застосування методу
- Погодження ДПО: зафіксоване підтвердження конфігурації
Це створює аудиторський слід, якого вимагають обидва закони. Для детального розгляду зобов'язань за Статтею 10 дивіться посібник із навчальних даних Закону ЄС про AI.
Конфігурація пресету для наборів даних NLP-моделей
Типи для включення в більшості наборів даних NLP-моделей:
- PERSON — Replace на подібні імена
- EMAIL_ADDRESS — Replace на синтетичні адреси
- PHONE_NUMBER — Replace на синтетичні номери
- CREDIT_CARD / IBAN — Replace або Redact
- LOCATION — Replace на подібні місця, якщо місцезнаходження важливе; Redact, якщо ні
- DATE_OF_BIRTH — Redact; часто потрібне групування за віком
Типи, які часто виключаються:
- Загальні дати — мітки часу допомагають темпоральним моделям
- Назви організацій — допомагають моделям розпізнавання іменованих сутностей
- URL-адреси — допомагають моделям посилань і посилань
Менеджер ML і ДПО встановлюють ці правила у затвердженому пресеті. Члени команди застосовують його. Вони не приймають рішення щодо конфігурації.
Пресети як інституційна пам'ять
До пресетів. Правильна конфігурація сутностей зберігалась у головах трьох дата-сайєнтистів. Вони пройшли через огляд відповідності. Двоє пішли у третьому кварталі. Знання пішли разом із ними.
Після пресетів. Конфігурація зберігається в «ML Dev — Записи клієнтів v2.1». Журнал версій показує, коли його було створено, хто затвердив і що змінилось порівняно з v2.0. Нові члени команди використовують пресет і отримують все знання, закладене в нього.
Версія 2.1 додала виявлення IBAN після того, як огляд виявив його відсутність. Версія 2.0 була затверджена у лютому 2025 року. Журнал є повним.
Про те, як працюють потоки журналів обробки та огляду ДПО, дивіться посібник з анонімізації навчальних даних ML для GDPR.
Пресети проти шаблону CNIL
Справи CNIL щодо AI 2024 року встановили чіткий шаблон. Вони запитують не просто про те, що було видалено, а про те, як це управлялось. Спільний пресет із записом погодження ДПО та журналами обробки відповідає на це безпосередньо.
Ad-hoc конфігурація — ні. Та сама прогалина існує в інших справах DPA ЄС, що слідують логіці CNIL. Для отримання додаткової інформації про підхід CNIL до AI дивіться посібник із відповідності GDPR для AI у Франції CNIL.
Висновок
Документи говорять членам команди, що робити. Пресети полегшують — і забезпечують дотримання — однакового способу виконання щоразу.
Для наборів даних ML-моделей послідовність є як юридичною, так і технічною потребою. Пресет задовольняє обидві одночасно.
DPA, що розглядають практики AI, хочуть бачити докази однакової анонімізації. Пресет, застосований однаково до всієї роботи з наборами даних, є найбільш переконливим доказом, який ви можете надати.