Французская Национальная комиссия по информатике и свободам (CNIL) является наиболее технически требовательным органом по защите данных в ЕС. В то время как другие органы по защите данных сосредоточены прежде всего на процедурном соответствии, CNIL публикует детальные технические руководства — «recommandations» — устанавливающие конкретные алгоритмические стандарты для анонимизации, псевдонимизации и управления данными ИИ. В 2024 году 63% официальных уведомлений CNIL ссылались на неадекватную анонимизацию в системах ИИ.
Техническое влияние CNIL за пределами Франции
Технические руководства CNIL регулярно цитируются другими органами по защите данных ЕС:
Guide pratique de l'anonymisation (2023): Практическое руководство CNIL по анонимизации охватывает k-анонимность, l-разнообразие, дифференциальную конфиденциальность и их практическое применение к французским наборам данных. Более 12 органов по защите данных ЕС ссылаются на это руководство в собственных нормативных документах (включая IMY Швеции, разработавший собственную версию частично на основе методологии CNIL).
Руководство по системам ИИ (2024): Руководство CNIL по управлению ИИ охватывает 6 обязательных категорий анонимизации для обучающих данных ИИ — наиболее конкретное руководство среди органов по защите данных ЕС по данной теме.
Технические требования к файлам cookie: Руководство CNIL по применению мер в отношении файлов cookie (регулярно обновляемое) устанавливает конкретные технические требования к платформам управления согласием — наиболее технически детальное руководство органа по защите данных ЕС в области технологий согласия.
NIR: наиболее чувствительный идентификатор Франции
Numéro d'Inscription au Répertoire (NIR) — также называемый numéro de sécurité sociale — это 15-значный французский номер социального страхования в формате:
S AAMMDDCCC OOO K
Где:
- S = 1 цифра: пол (1=мужской, 2=женский)
- AA = 2 цифры: год рождения
- MM = 2 цифры: месяц рождения
- DD = 2 цифры: департамент рождения (01-95, 2A/2B для Корсики, 97-99 для заморских территорий, 99 для рождённых за рубежом)
- CCC = 3 цифры: код муниципалитета внутри департамента
- OOO = 3 цифры: порядковый номер рождения
- K = 2 цифры: контрольный ключ (97 − (NIR mod 97))
NIR кодирует пол, дату рождения, место рождения и порядковый номер — делая его одним из наиболее информационно насыщенных национальных идентификаторов в ЕС. CNIL классифицирует NIR как требующий повышенной защиты, эквивалентной данным особых категорий.
Сложность обнаружения: По данным анализа CNIL 2024 года, универсальные инструменты NLP пропускают NIR в 78% документов. Конкретные сбои:
- 15-значная структура NIR (без разделителей во многих документах) путается с другими длинными числовыми последовательностями
- Кодирование департамента/муниципалитета (цифры 7–11) требует географических знаний для валидации — инструменты, не реализующие вычисление ключа по mod-97, не могут отличить валидные номера NIR от ложных срабатываний
- Корсиканские департаменты (2A/2B — буквы, не цифры) нарушают работу инструментов поиска по шаблону, ожидающих только цифровые символы
SIREN/SIRET: бизнес-идентификаторы во французских документах
Номер SIREN: 9-значный идентификационный номер французской компании с контрольной цифрой Луна. Фигурирует во всех французских коммерческих документах.
Номер SIRET: 14-значное расширение SIREN (9-значный SIREN + 5-значный номер предприятия). SIRET однозначно идентифицирует конкретное коммерческое предприятие, тогда как SIREN — организацию-компанию.
Деловые документы часто содержат номера SIRET рядом с личными данными представителей компаний — руководство CNIL по правоприменению рассматривает комбинацию SIRET + имя физического лица как создающую идентифицирующую информацию, влекущую обязательства по GDPR.
Требования CNIL к анонимизации данных ИИ
Руководство CNIL 2024 года по ИИ устанавливает 6 конкретных категорий анонимизации для обучающих данных ИИ с французскими персональными данными:
- Удаление идентификаторов: Явные идентификаторы (имя, NIR, SIREN) должны быть заменены псевдонимами или удалены
- Обобщение квазиидентификаторов: Атрибуты, совокупность которых может обеспечить повторную идентификацию (возраст, департамент, профессия), должны быть обобщены для снижения специфичности
- Добавление шума: К числовым атрибутам должен быть добавлен откалиброванный шум для предотвращения вывода
- Проверка k-анонимности: Каждый человек в наборе данных должен быть неотличим от не менее чем k-1 других (CNIL рекомендует k≥5)
- Проверка l-разнообразия: Значения чувствительных атрибутов должны иметь достаточное разнообразие внутри каждого класса эквивалентности
- Оценка риска повторной идентификации: Перед публикацией наборы данных должны пройти оценку риска повторной идентификации с использованием задокументированной методологии
CNIL прямо признала, что простое удаление NIR и полного имени из набора данных не является достаточной анонимизацией. Дополнительные квазиидентификаторы (возраст, почтовый индекс, профессия, медицинская специализация) также должны быть обработаны.
Двуязычный контекст: французский и региональные языки
Франция имеет сложную лингвистическую ситуацию, значимую для обнаружения персональных данных:
Столичный французский: Стандартный французский язык, основной язык всех официальных документов.
Идентификаторы DOM-TOM: Заморские территории (Мартиника, Гваделупа, Реюньон, Гвиана, Майотта) имеют собственные административные коды в номерах NIR (префикс 97, 98 для заморских департаментов) и местные именные конвенции.
Контекст Эльзаса: Регион Эльзас-Мозель имеет исторические немецкие административные традиции — имена немецкого происхождения и отдельные немецкие форматы административных документов встречаются во французских административных записях.
Бельгийский французский: Для организаций, работающих во Франции и Бельгии, форматы французских и бельгийских идентификаторов различаются (NIR против номера бельгийского национального регистра), а в бельгийском французском используются несколько отличные именные конвенции.
Для соответствия французским требованиям: обнаружение NIR с валидацией ключа по mod-97, обнаружение SIREN/SIRET с проверкой по алгоритму Луна, французский NER с поддержкой акцентированных символов (é, è, ê, ë, à, â, î, ô, û, ç, œ) и задокументированная анонимизация, соответствующая 6-категорийной системе CNIL для обучающих данных ИИ.
Источники: