Французька Національна комісія з інформатики та свободам (CNIL) є найбільш технічно вимогливим органом захисту даних в ЄС. Тоді як інші регулятори зосереджуються переважно на процедурній відповідності, CNIL публікує детальні технічні рекомендації — «recommandations» — що встановлюють конкретні алгоритмічні стандарти для анонімізації, псевдонімізації та управління даними ШІ. 63% офіційних приписів CNIL у 2024 році стосувалися неналежної анонімізації в системах ШІ.
Технічний вплив CNIL за межами Франції
Технічні рекомендації CNIL регулярно цитуються іншими органами захисту даних ЄС:
Guide pratique de l'anonymisation (2023): Практичний посібник CNIL з анонімізації охоплює k-анонімність, l-різноманітність, диференційну конфіденційність та їх практичне застосування до французьких наборів даних. Більш ніж 12 органів захисту даних ЄС посилаються на цей посібник у власних рекомендаціях щодо виконання норм (включно з IMY Швеції, яка підготувала власну версію, частково засновану на методології CNIL).
Рекомендації щодо систем ШІ (2024): Рекомендації CNIL з управління ШІ охоплюють 6 обов'язкових категорій анонімізації для навчальних даних ШІ — найбільш конкретні рекомендації органу захисту даних ЄС із цієї теми.
Технічні вимоги щодо файлів cookie: Рекомендації CNIL щодо виконання норм стосовно файлів cookie (регулярно оновлюються) вимагають конкретних технічних реалізацій для платформ управління згодою — найбільш технічно детальні рекомендації органу захисту даних стосовно технологій згоди в ЄС.
NIR: найбільш чутливий ідентифікатор Франції
Numéro d'Inscription au Répertoire (NIR) — також відомий як numéro de sécurité sociale — це 15-значний французький номер соціального страхування у форматі:
S AAMMDDCCC OOO K
Де:
- S = 1 цифра: стать (1=чоловіча, 2=жіноча)
- AA = 2 цифри: рік народження
- MM = 2 цифри: місяць народження
- DD = 2 цифри: департамент народження (01–95, 2A/2B для Корсики, 97–99 для заморських територій, 99 для іноземного народження)
- CCC = 3 цифри: код муніципалітету в межах департаменту
- OOO = 3 цифри: порядковий номер народження
- K = 2 цифри: контрольний ключ (97 − (NIR mod 97))
NIR кодує стать, дату народження, місце народження та порядок народження — що робить його одним із найбільш інформаційно насичених національних ідентифікаторів в ЄС. CNIL класифікує NIR як такий, що потребує підвищеного захисту, еквівалентного даним особливих категорій.
Труднощі виявлення: Загальні інструменти NLP пропускають NIR у 78% документів за даними аналізу CNIL 2024 року. Конкретні збої:
- 15-значна структура NIR (без роздільників у багатьох документах) плутається з іншими довгими числовими послідовностями
- Кодування департаменту/муніципалітету (цифри 7–11) потребує географічних знань для перевірки — інструменти, що не реалізують розрахунок ключа mod-97, не можуть відрізнити дійсні номери NIR від хибних спрацьовувань
- Корсиканські департаменти (2A/2B — букви, не цифри) ламають інструменти пошуку за шаблонами, що очікують лише числові символи
SIREN/SIRET: ідентифікатори підприємств у французьких документах
Номер SIREN: 9-значний французький ідентифікаційний номер компанії з контрольною цифрою Луна. Зустрічається у всіх французьких комерційних документах.
Номер SIRET: 14-значне розширення SIREN (9-значний SIREN + 5-значний номер підрозділу). SIRET однозначно ідентифікує конкретний підрозділ підприємства, тоді як SIREN ідентифікує юридичну особу компанії.
Комерційні документи часто містять номери SIRET разом із персональними даними представників компанії — рекомендації CNIL щодо виконання норм розглядають поєднання SIRET + ім'я фізичної особи як таке, що створює ідентифікуючу інформацію, що спричиняє зобов'язання за GDPR.
Вимоги CNIL до анонімізації ШІ
Рекомендації CNIL 2024 року щодо ШІ вимагають 6 конкретних категорій анонімізації для навчальних даних ШІ, що містять французькі персональні дані:
- Видалення ідентифікаторів: Явні ідентифікатори (ім'я, NIR, SIREN) повинні бути замінені псевдонімами або видалені
- Узагальнення квазі-ідентифікаторів: Атрибути, що у поєднанні можуть уможливити повторну ідентифікацію (вік, департамент, професія), повинні бути узагальнені для зменшення специфічності
- Додавання шуму: До числових атрибутів повинен бути доданий відкалібрований шум для запобігання висновку
- Перевірка k-анонімності: Кожна особа в наборі даних повинна бути невідрізнима від щонайменше k-1 інших осіб (CNIL рекомендує k≥5)
- Перевірка l-різноманітності: Значення чутливих атрибутів повинні мати належну різноманітність у кожному класі еквівалентності
- Оцінка ризику повторної ідентифікації: Перед публікацією набори даних повинні пройти оцінку ризику повторної ідентифікації за задокументованою методологією
CNIL прямо встановив, що просте видалення NIR та повного імені з набору даних є недостатньою анонімізацією. Необхідно також враховувати додаткові квазі-ідентифікатори (вік, поштовий індекс, професія, медична спеціальність).
Двомовний контекст французької мови та регіональних мов
Франція має складну мовну ситуацію, що стосується виявлення PII:
Метрополітенська французька: Стандартна французька, якою говорять у Франції — основна мова всіх офіційних документів.
Ідентифікатори DOM-TOM: Заморські території (Мартиніка, Гваделупа, Реюньон, Гвіана, Майотта) мають власні адміністративні коди в номерах NIR (префікс 97, 98 для заморських департаментів) і місцеві конвенції імен.
Ельзаський контекст: Регіон Ельзас-Мозель має історичні германські адміністративні конвенції — германського походження імена та деякі формати германських адміністративних документів зустрічаються у французьких адміністративних записах.
Бельгійська французька: Для організацій, що працюють у Франції та Бельгії, формати французьких і бельгійських ідентифікаторів відрізняються (NIR проти бельгійського номера національного реєстру), і бельгійська французька використовує дещо інші конвенції імен.
Для відповідності вимогам Франції: виявлення NIR із перевіркою ключа mod-97, виявлення SIREN/SIRET з перевіркою Луна, французьке NER з підтримкою символів з діакритичними знаками (é, è, ê, ë, à, â, î, ô, û, ç, œ) та задокументована анонімізація відповідно до 6-категорійного фреймворку CNIL для навчальних даних ШІ.
Джерела: