Відтворювана конфіденційність: чому командам ML потрібні пресети, а не лише документація

ДПО затвердив план анонімізації. Він охоплює чотири елементи: імена, електронні адреси, номери телефонів і дати народження. Метод — Replace. План займає чотири сторінки та розміщений у вікі комплаєнсу.

Дванадцять дата-сайєнтистів прочитали його на установчій зустрічі. Кожен налаштовує інструмент самостійно. Дехто додає національні ідентифікатори. Дехто додає IP-адреси. Дехто перемикається на Redact. Через три місяці набори даних є непослідовними.

CNIL перевірила кілька AI-компаній у 2024 році. Проблема: неналежне використання персональних даних у наборах для навчання моделей. Вони запитували не просто про те, чи відбувалася анонімізація. Вони запитували, наскільки послідовно вона застосовувалась.

Документація потрібна. Але її недостатньо. Виправленням є пресет.

Чому набори даних ML потребують власної конфігурації

Побудова наборів даних для моделей має унікальні потреби. Загальна анонімізація документів їх не поділяє.

Replace, а не Redact. Моделі, навчені на тексті, де імена стають [REDACTED], навчаються, що цей токен є маркером позиції імені. Це шкодить моделі. Replace замінює «Іван Петренко» на «Дмитро Коваленко». Модель бачить реальні шаблони імен. Вона не бачить токена-маски.

Однаковий процес для всіх записів. Набір, де 70% імен замінено, а 30% — [REDACTED], посилає змішаний сигнал. Кожен запис має пройти ті самі кроки.

Однаковий список сутностей. Якщо набір містить медичні дані, видалення імен, але залишення дат народження в деяких записах, створює прогалини. Всі дванадцять дата-сайєнтистів повинні видаляти однакові типи.

Без надмірного видалення. Видалення дат, що є мітками часу, а не датами народження, зменшує якість набору без жодної вигоди для відповідності. Затверджений пресет вказує, які саме елементи видаляти.

Відтворюваний результат. Якщо набір потрібно обробити знову — скажімо, після виявлення пропущеного типу сутності — пресет дає той самий результат щоразу. Ad-hoc конфігурації — ні.

Проблема дванадцяти дата-сайєнтистів

Команда ML фінтех-компанії в Європі використовує набори даних із журналів клієнтів. ДПО затвердив мету — виявлення шахрайства — з одним правилом: всі імена клієнтів, електронні адреси, номери телефонів і ідентифікатори платежів мають бути замінені перед початком роботи з моделлю.

Без пресетів:

Особа 1 видаляє імена, електронні адреси та номери телефонів — але пропускає ідентифікатори платежів
Особа 2 включає ідентифікатори платежів, але використовує Redact замість Replace
Особа 3 точно дотримується плановий документу
Особи 4–12 варіюються

Об'єднаний набір є частково невідповідним і частково надмірно обробленим. ДПО не може його сертифікувати.

З пресетом, затвердженим ДПО:

ДПО створює «ML Dev — Виявлення шахрайства» з точними типами сутностей і методом Replace
Пресет надається всім дванадцяти людям з одним правилом: використовувати для всієї роботи з наборами даних
Ніхто не може змінити пресет без погодження з ДПО

Кожна людина тепер виробляє однаковий результат. Об'єднаний набір є послідовним. Щорічний AI-аудит проходить із нульовими знахідками. У попередньому році було три знахідки через непослідовну роботу з наборами даних.

Оновлено для 2026 року

Закон ЄС про AI набрав чинності у серпні 2024 року. Він додає правила для систем AI, що використовують персональні дані для навчання моделей. Системи AI з підвищеним ризиком повинні документувати свої набори даних, включно з тим, яка анонімізація була застосована.

Стаття 5(1)(b) GDPR — правило обмеження мети — блокує використання персональних даних без чіткої правової підстави. Справи CNIL 2024 року були зосереджені на цій прогалині: дані, зібрані для однієї послуги, використовувались для навчання моделей без дійсної підстави або анонімізації.

Пресети допомагають задовольнити обидва набори правил:

Назва та конфігурація пресету: задокументований метод
Журнали обробки: доказ застосування методу
Погодження ДПО: зафіксоване підтвердження конфігурації

Це створює аудиторський слід, якого вимагають обидва закони. Для детального розгляду зобов'язань за Статтею 10 дивіться посібник із навчальних даних Закону ЄС про AI.

Конфігурація пресету для наборів даних NLP-моделей

Типи для включення в більшості наборів даних NLP-моделей:

PERSON — Replace на подібні імена
EMAIL_ADDRESS — Replace на синтетичні адреси
PHONE_NUMBER — Replace на синтетичні номери
CREDIT_CARD / IBAN — Replace або Redact
LOCATION — Replace на подібні місця, якщо місцезнаходження важливе; Redact, якщо ні
DATE_OF_BIRTH — Redact; часто потрібне групування за віком

Типи, які часто виключаються:

Загальні дати — мітки часу допомагають темпоральним моделям
Назви організацій — допомагають моделям розпізнавання іменованих сутностей
URL-адреси — допомагають моделям посилань і посилань

Менеджер ML і ДПО встановлюють ці правила у затвердженому пресеті. Члени команди застосовують його. Вони не приймають рішення щодо конфігурації.

Пресети як інституційна пам'ять

До пресетів. Правильна конфігурація сутностей зберігалась у головах трьох дата-сайєнтистів. Вони пройшли через огляд відповідності. Двоє пішли у третьому кварталі. Знання пішли разом із ними.

Після пресетів. Конфігурація зберігається в «ML Dev — Записи клієнтів v2.1». Журнал версій показує, коли його було створено, хто затвердив і що змінилось порівняно з v2.0. Нові члени команди використовують пресет і отримують все знання, закладене в нього.

Версія 2.1 додала виявлення IBAN після того, як огляд виявив його відсутність. Версія 2.0 була затверджена у лютому 2025 року. Журнал є повним.

Про те, як працюють потоки журналів обробки та огляду ДПО, дивіться посібник з анонімізації навчальних даних ML для GDPR.

Пресети проти шаблону CNIL

Справи CNIL щодо AI 2024 року встановили чіткий шаблон. Вони запитують не просто про те, що було видалено, а про те, як це управлялось. Спільний пресет із записом погодження ДПО та журналами обробки відповідає на це безпосередньо.

Ad-hoc конфігурація — ні. Та сама прогалина існує в інших справах DPA ЄС, що слідують логіці CNIL. Для отримання додаткової інформації про підхід CNIL до AI дивіться посібник із відповідності GDPR для AI у Франції CNIL.

Висновок

Документи говорять членам команди, що робити. Пресети полегшують — і забезпечують дотримання — однакового способу виконання щоразу.

Для наборів даних ML-моделей послідовність є як юридичною, так і технічною потребою. Пресет задовольняє обидві одночасно.

DPA, що розглядають практики AI, хочуть бачити докази однакової анонімізації. Пресет, застосований однаково до всієї роботи з наборами даних, є найбільш переконливим доказом, який ви можете надати.

Джерела

Схожі статті

Технічні

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

Почати безкоштовну пробну версію Переглянути функції

Відтворювана конфіденційність: пресети для ML

Відтворювана конфіденційність: чому командам ML потрібні пресети, а не лише документація

Чому набори даних ML потребують власної конфігурації

Проблема дванадцяти дата-сайєнтистів

Конфігурація пресету для наборів даних NLP-моделей

Пресети як інституційна пам'ять

Пресети проти шаблону CNIL

Висновок

Джерела

Схожі статті

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Готові захистити свої дані?

Відтворювана конфіденційність: пресети для ML

Відтворювана конфіденційність: чому командам ML потрібні пресети, а не лише документація

Чому набори даних ML потребують власної конфігурації

Проблема дванадцяти дата-сайєнтистів

GDPR і Закон про AI

Конфігурація пресету для наборів даних NLP-моделей

Пресети як інституційна пам'ять

Пресети проти шаблону CNIL

Висновок

Джерела

Схожі статті

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow