CNIL Франция: технические требования регулятора к инструментам обработки ПДн
Французская CNIL — самый требовательный орган по защите данных в ЕС. Большинство европейских регуляторов формулируют широкие нормы. CNIL идёт дальше: она публикует детальные технические руководства, называемые recommandations, которые устанавливают точные стандарты для анонимизации и использования данных в ИИ.
Предписания CNIL 2024 года нередко указывали на слабую анонимизацию в ИИ-системах. В 2023 году ведомство получило 16 433 жалобы — на 43% больше, чем в 2022 году.
Руководства CNIL формируют политику ЕС
Технические документы CNIL широко цитируются другими органами ЕС по защите данных. Наибольшее значение имеют два руководства.
Guide pratique de l'anonymisation (2023): Руководство охватывает k-анонимность, l-разнообразие и дифференциальную конфиденциальность, показывая применение каждого метода к французским данным. Шведский IMY и другие органы ЕС ссылаются на него в собственных документах.
Руководство по ИИ-системам (2024): CNIL перечисляет шесть типов данных, которые должны быть обработаны при обучении ИИ. Ни один другой регулятор ЕС не зашёл так далеко в вопросах ИИ.
Правила использования куки: Руководство CNIL по куки устанавливает самую высокую техническую планку для инструментов управления согласием в ЕС и регулярно обновляется.
NIR: наиболее чувствительный французский идентификатор
Numéro d'Inscription au Répertoire (NIR) — иначе называемый numéro de sécurité sociale — представляет собой 15-значный французский номер социального страхования.
Его формат: S AA MM DD CCC OOO K
- S — 1 цифра: пол
- AA — год рождения
- MM — месяц рождения
- DD — департамент рождения (01–95, 2A/2B для Корсики, 97–99 заморские территории, 99 иностранцы)
- CCC — код муниципалитета
- OOO — порядковый номер рождения
- K — 2-значный контрольный ключ (97 − (NIR mod 97))
NIR содержит в одном числе пол, дату рождения и место рождения. CNIL относится к нему как к данным повышенного риска. Он требует такого же обращения, как данные особых категорий по статье 9 GDPR.
Почему инструменты пропускают NIR: Универсальные NLP-инструменты не справляются с NIR по трём причинам. Во-первых, 15 цифр (часто записываемых без пробелов) выглядят как другие длинные числа. Во-вторых, цифры 7–11 содержат код департамента. Инструменты, пропускающие проверку mod-97, дают ложные срабатывания. В-третьих, корсиканские департаменты используют 2A и 2B, а не чистые цифры. Инструменты, рассчитанные только на числовые шаблоны, здесь дают сбой.
Качественное обнаружение NIR требует трёх компонентов: проверки ключа mod-97, географического справочника и правил для кодов Корсики.
О том, как идентификаторы вписываются в стек защитных мер GDPR — в разделе Безопасность и соответствие требованиям.
SIREN и SIRET: бизнес-идентификаторы в персональных файлах
SIREN: 9-значный французский идентификатор компании с контрольной цифрой по алгоритму Луна. Встречается во всех французских коммерческих документах.
SIRET: 14-значный номер, состоящий из SIREN (9 цифр) плюс код подразделения (5 цифр). SIRET идентифицирует конкретное место, SIREN — компанию в целом.
В деловых файлах SIRET нередко соседствует с именами сотрудников. CNIL рассматривает пару SIRET + имя как персональные данные. Такое сочетание влечёт применение норм GDPR даже при отсутствии отдельного поля с персональными данными.
Шесть шагов анонимизации для обучения ИИ
Руководство CNIL по ИИ 2024 года охватывает шесть типов данных. Каждый из них должен быть обработан до использования французских персональных данных при обучении ИИ:
- Удаление прямых идентификаторов — Имена, NIR, SIREN необходимо заменить или удалить
- Обобщение квазиидентификаторов — Возраст, департамент, профессия в совокупности могут позволить повторную идентификацию; снизьте их точность
- Добавление шума к числовым данным — Числовые поля требуют калиброванного шума для предотвращения вывода
- Проверка k-анонимности — Каждый человек должен быть неотличим хотя бы от k-1 других; CNIL ориентируется на k ≥ 5
- Проверка l-разнообразия — Чувствительные атрибуты должны варьироваться внутри каждой группы
- Оценка риска повторной идентификации — Перед любой публикацией данных используйте задокументированный метод
Удаления NIR и полного имени недостаточно. CNIL неоднократно фиксировала это в ходе расследований. Квазиидентификаторы — почтовый индекс и медицинская специальность — также требуют обработки.
Наш Руководство по соответствию GDPR охватывает документацию, которую ожидают проверяющие французского регулятора.
Языковой контекст для обнаружения французских ПДн
Во Франции существует несколько языковых контекстов, влияющих на обнаружение ПДн.
Стандартный французский — язык всех официальных документов. NER-модели должны обрабатывать буквы с диакритикой: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Заморские территории (DOM-TOM): Мартиника, Гваделупа, Реюньон, Гвиана и Майотта используют коды NIR в диапазоне 97–98. Местные шаблоны имён отличаются от материковой Франции.
Эльзас-Мозель: В французских документах встречаются имена немецкого происхождения и некоторые немецкие форматы документов. Модели, обученные только на стандартном французском, могут их пропустить.
Трансграничное использование: Бельгийский французский предполагает иной формат удостоверения личности. Инструменты, применяемые во Франции и Бельгии, должны поддерживать правила для каждой страны.
Что должен уметь ваш инструмент
Соответствие французским требованиям предполагает четыре технические возможности:
- NIR с проверкой mod-97 — Сопоставление по шаблону недостаточно. Инструменты обязаны выполнять проверку ключа и обрабатывать коды 2A/2B.
- SIREN/SIRET с проверкой Луна — Бизнес-идентификаторы встречаются в персональных файлах и создают охватываемые GDPR комбинации с именами.
- Французская NER с полной поддержкой диакритики — Должна обрабатывать составные имена (Jean-Pierre), частицы (de, du, des) и буквы с диакритикой.
- Задокументированный шестишаговый процесс — Любой конвейер обучения ИИ на французских данных должен содержать письменный отчёт по каждому виду анонимизации.