Позиция CNIL как наиболее технически требовательного DPA ЕС
Французская Commission Nationale de l'Informatique et des Libertés (CNIL) публикует наиболее детальные и технически конкретные руководящие указания по защите данных в ЕС. Там, где большинство DPA ЕС издают общие руководящие указания, CNIL публикует «recommandations» — детальные технические спецификации, которые составляют интерпретацию CNIL требований соответствия GDPR.
Эта техническая строгость утвердила CNIL как эталон ЕС в области конфиденциальностной инженерии. Другие DPA ЕС часто ссылаются на технические публикации CNIL, особенно на «Guide pratique de l'anonymisation» 2023 года (практическое руководство по анонимизации) и руководство по генеративному ИИ 2024 года.
CNIL обработала 16 433 жалобы в 2023 году — увеличение на 43% по сравнению с 2022 годом — и выдала штрафы примерно на €150 млн с 2018 года. Ускорение объёма жалоб отражает как растущую осведомлённость общества, так и информационные кампании CNIL, побуждающие субъектов данных реализовывать свои права.
Требования CNIL к анонимизации обучающих данных ИИ
Руководство CNIL 2024 года по генеративному ИИ («Systèmes d'IA générative») устанавливает обязывающие требования для организаций, обучающих модели ИИ на французских персональных данных или развёртывающих ИИ-системы, обрабатывающие данные французских пользователей.
Руководство определяет шесть обязательных категорий анонимизации для обучающих данных ИИ:
- Identifiants directs (прямые идентификаторы): Имена, адреса, идентификационные номера — должны быть удалены или заменены до обучения ИИ
- Identifiants quasi-directs (квазиидентификаторы): Комбинации атрибутов, позволяющие повторную идентификацию — должны оцениваться на k-анонимность
- Données sensibles (специальные категории): Данные о здоровье, биометрические, политические, религиозные — должны быть разделены с дополнительными мерами анонимизации
- Données comportementales (поведенческие данные): История просмотров, шаблоны взаимодействия — должны быть агрегированы или псевдонимизированы
- Données inférées (выведенные данные): Характеристики, выведенные ИИ из поведенческих данных — подлежат мерам контроля ограничения цели
- Données relatives aux mineurs (данные детей): Любые данные, потенциально относящиеся к лицам моложе 15 лет — обязательная верификация возраста и усиленная анонимизация
Для организаций, использующих LLM, обученные на веб-скрейпинговых данных (распространённый подход), руководство CNIL требует документации того, что обучающие данные были оценены по этим шести категориям и применена соответствующая анонимизация.
Требования «Guide Pratique de l'Anonymisation»
Руководство CNIL 2023 года по анонимизации является наиболее детальным официальным руководством ЕС о том, что технически составляет анонимизацию. Ключевые требования:
Техники анонимизации, одобренные CNIL:
- k-анонимность: обеспечение того, что каждая запись неотличима как минимум от k-1 других записей
- l-разнообразие: требование разнообразия в чувствительных атрибутах в классах эквивалентности
- Дифференциальная конфиденциальность: добавление калиброванного шума к статистическим выводам
- Псевдонимизация (явно указана как не анонимизация, но мера снижения риска)
Требования к документации: CNIL требует, чтобы организации вели «fiche d'anonymisation» (запись анонимизации) для каждой деятельности по обработке с использованием анонимизации, документируя: применённую технику анонимизации, использованные параметры (значение k для k-анонимности, значение epsilon для дифференциальной конфиденциальности), оценку остаточного риска повторной идентификации и методологию валидации.
Оценка риска повторной идентификации: CNIL требует от организаций проведения оценки риска повторной идентификации перед заявлением о том, что данные анонимизированы. Оценка должна учитывать: тест «мотивированного злоумышленника» (мог бы мотивированный человек повторно идентифицировать данные?), доступные вспомогательные наборы данных и конкретный контекст данных.
Соображения о французском обнаружении PII в CNIL
Для организаций, обрабатывающих данные на французском языке, руководство CNIL неявно требует, чтобы инструменты обнаружения PII охватывали PII на французском языке. Специфичные для Франции типы сущностей, которые должны быть обнаружены:
- Numéro de Sécurité Sociale (NIR): 13-значный французский номер социального страхования со специфической форматной валидацией
- Номер carte vitale: Идентификатор карты медицинского страхования, используемый в французском медицинском администрировании
- Numéro d'identification au répertoire (NIR): Идентификатор реестра населения
- SIRET/SIREN: Бизнес-идентификаторы, которые могут появляться в личных деловых контекстах
- Numéro d'ordre professionnel: Номера профессиональной регистрации (врачи, адвокаты, бухгалтеры)
- Carte nationale d'identité (CNI): Номер французского национального удостоверения личности
Французские NER-модели для обнаружения имён людей также должны обрабатывать французские соглашения об именовании: составные имена (Jean-Pierre), имена через дефис, частицы (de, du, des) и специфичные для французского языка шаблоны имён.
Правоприменение CNIL: паттерн штрафов за ИИ
Правоприменительные действия CNIL против ИИ-систем устанавливают прецедент для того, что означает «адекватные технические меры» в контексте ИИ:
Clearview AI (штраф €20 млн, 2022): Обработка биометрических данных французских граждан без правового основания, собранных из открытых веб-источников. Установлено, что массовый веб-скрейпинг персональных данных для обучения ИИ требует явного правового основания.
Расследование TikTok (продолжается в 2024–2025): Сосредоточено на алгоритмических системах рекомендаций, которые могут выводить специальные категории из поведенческих данных. Методология расследования CNIL стала стандартом ЕС для аудитов ИИ-систем.
Проверка генеративного ИИ (2024–2025): CNIL провела систематические проверки поставщиков LLM, работающих во Франции, сосредоточившись на происхождении обучающих данных и анонимизации. Поставщики без задокументированных процедур анонимизации данных французских пользователей были обязаны внедрить меры контроля.
Паттерн: правоприменение CNIL сосредоточено на технической неадекватности — отсутствии задокументированных технических мер контроля — а не чисто на процедурных нарушениях.
Внедрение документации анонимизации, соответствующей CNIL
Для французских организаций или организаций, обслуживающих французских пользователей, соответствующая CNIL позиция анонимизации требует:
1. Fiche d'anonymisation (запись анонимизации) для каждой деятельности по обработке:
- Цель обработки и категории данных
- Применённая техника анонимизации (с параметрами)
- Результат оценки риска повторной идентификации
- Метод валидации (тестирование, внешняя проверка)
- Ответственное лицо и дата проверки
2. Предварительная обработка для ИИ-систем:
- Задокументируйте используемый инструмент обнаружения PII и конфигурацию
- Запишите обнаруженные и удалённые/псевдонимизированные типы сущностей
- Ведите журналы обработки для запросов аудита CNIL
3. Охват PII на французском языке:
- Проверьте охват обнаружения для специфичных французских идентификаторов (NIR, carte vitale, CNI)
- Проверьте производительность французской NER-модели на французских личных именах
- Задокументируйте пробелы в охвате и компенсирующие меры контроля
4. Происхождение обучающих данных:
- Для ИИ-систем, обученных на веб-скрейпинговых данных: задокументируйте оценку анонимизации исходного набора данных
- Для ИИ-систем, обученных на данных пользователей: задокументируйте процесс анонимизации данных пользователей
Запросы инспекции CNIL для ИИ-систем регулярно включают запросы этих документов. Организации с уже имеющейся документацией выполняют требования инспекции значительно быстрее, чем те, кто проводит оценки в реактивном режиме.
Источники: