Проблема ML та GDPR
Дані для тренування машинного навчання часто містять PII:
- Імена та дати народження
- Адреси та координати
- Номери карток та облікових записів
- Медичні записи
Стратегія анонімізації для ML
Етап 1: Синтетичні дані
Оригінал: John Doe, 1990-01-15, New York
Синтетичні: Jane Smith, 1988-03-22, Boston
Синтетичні дані зберігають статистичні властивості без PII.
Етап 2: Диференційна приватність
Додавання шуму до даних так, щоб окремі записи не були виявлені,
але в цілому набір даних залишається корисним для ML.
Етап 3: Федеративне навчання
Моделі тренуються локально у кожної організації,
потім об'єднуються без обміну даними.
Вимоги GDPR:
- Щонайменше один метод анонімізації
- Документування методу
- Перевірка технічне відповідність
- Регулярні аудити
Контрольний список
- Визначити PII у тренувальних даних
- Выбрати метод анонімізації
- Впровадити анонімізацію
- Тестування на ідентифікацію
- Документування процесу