anonym.legal
Назад към блогаGDPR и съответствие

CNIL Франция: Какво изисква DPA с най-високи...

CNIL обработи 16 433 жалби през 2023 г. (+43%). 63% от известията CNIL цитират неадекватна анонимизация на AI.

April 21, 20269 мин. четене
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Френската Национална комисия за информация и свободи (CNIL) е най-взискателният технически орган в ЕС за защита на данните. Докато други DPA се фокусират предимно върху процедурното съответствие, CNIL публикува подробни технически насоки — „препоръки“ — които определят специфични алгоритмични стандарти за анонимизиране, псевдонимизиране и управление на данни с изкуствен интелект. 63% от официалните известия CNIL през 2024 г. цитират неадекватна анонимност в системите с изкуствен интелект.

ZPRZ0006 Техническото влияние на ZPRZ извън Франция

Техническите насоки на CNIL се цитират рутинно от други ОЗД на ЕС:

Guide pratique de l'anonymisation (2023): Практическото ръководство за анонимизиране на CNIL обхваща k-анонимност, l-разнообразие, диференциална поверителност и тяхното практическо приложение във френски набори от данни. 12+ ОЗД на ЕС се позовават на това ръководство в собствените си насоки за правоприлагане (включително IMY Швеция, която създаде своя собствена версия, базирана отчасти на методологията на CNIL).

Ръководство за системи с изкуствен интелект (2024 г.): Ръководството за управление на изкуствения интелект на CNIL обхваща 6 задължителни категории за анонимизиране на данни за обучение на изкуствен интелект — най-специфичните указания на DPA на ЕС по тази тема.

Технически изисквания за бисквитки: Ръководството на CNIL за прилагане на бисквитки (редовно актуализирано) изисква специфични технически внедрявания за платформи за управление на съгласие — най-специфичните технически насоки на DPA относно технологията за получаване на съгласие в ЕС.

NIR: Най-чувствителният идентификатор на Франция

Numéro d'Inscription au Répertoire (NIR) — наричан още numéro de sécurité sociale — е 15-цифрен френски социалноосигурителен номер във формата:

S AAMMDDCCC OOO K

където:

  • S = 1 цифра: пол (1=мъжки, 2=женски)
  • AA = 2 цифри: година на раждане
  • MM = 2 цифри: месец на раждане
  • DD = 2 цифри: отдел на раждане (01-95, 2A/2B за Корсика, 97-99 за отвъдморски територии, 99 за раждане в чужбина)
  • CCC = 3 цифри: код на общината в отдела
  • OOO = 3 цифри: пореден номер на раждане
  • K = 2 цифри: ключ за проверка (97 - (NIR mod 97))

NIR кодира пол, дата на раждане, място на раждане и ред на раждане - което го прави сред най-богатите на информация национални идентификатори в ЕС. CNIL класифицира NIR като изискващ повишена защита, еквивалентна на данни от специална категория.

Предизвикателство при откриване: Генеричните NLP инструменти пропускат NIR в 78% от документите според анализа на CNIL от 2024 г. Конкретните неуспехи:

  • 15-цифрената структура на NIR (без разделители в много документи) се бърка с други дълги числови последователности
  • Кодирането на департамента/общината (цифри 7-11) изисква географски познания за валидиране — инструменти, които не прилагат изчислението на ключа mod-97, не могат да разграничат валидни NIR числа от фалшиви положителни резултати
  • Корсиканските отдели (2A/2B — букви, не цифри) нарушават инструментите за съвпадение на шаблони, които очакват само цифрови знаци

SIREN/SIRET: Бизнес идентификатори във френски документи

SIREN номер: 9-цифрен френски идентификационен номер на фирма с контролна цифра на Luhn. Появява се във всички френски търговски документи.

SIRET номер: 14-цифрено разширение на SIREN (9-цифрен SIREN + 5-цифрен номер на предприятие). SIRET уникално идентифицира конкретно бизнес предприятие, докато SIREN идентифицира юридическото лице на компанията.

Бизнес документите често съдържат SIRET номера заедно с личните данни на представители на компанията — насоките за прилагане на CNIL третират комбинацията от SIRET + индивидуално име като създаване на идентифицираща информация, която задейства задължения по GDPR.

Изисквания за анонимизиране на AI на CNIL

Ръководството за AI на CNIL за 2024 г. изисква 6 специфични категории за анонимизиране на данни за обучение на AI, включващи френски лични данни:

  1. Премахване на идентификатор: Изричните идентификатори (име, NIR, SIREN) трябва да бъдат заменени с псевдоними или премахнати
  2. Обобщение на квазиидентификатора: Атрибутите, които биха могли да позволят повторна идентификация в комбинация (възраст, отдел, професия), трябва да бъдат обобщени, за да се намали специфичността
  3. Добавяне на шум: Числовите атрибути трябва да имат добавен калибриран шум, за да се предотврати извод
  4. k-проверка на анонимност: Всеки индивид в набора от данни трябва да бъде неразличим от поне k-1 други (CNIL препоръчва k≥5)
  5. l-проверка на разнообразието: Стойностите на чувствителни атрибути трябва да имат адекватно разнообразие във всеки клас на еквивалентност
  6. Оценка на риска от повторна идентификация: Преди публикуване наборите от данни трябва да бъдат подложени на оценка на риска от повторна идентификация, като се използва документирана методология

CNIL изрично установи, че простото премахване на NIR и пълното име от набор от данни не е достатъчна анонимност. Допълнителни квазиидентификатори (възраст, пощенски код, професия, медицинска специалност) също трябва да бъдат адресирани.

Контекст на двуезичен френски/регионален език

Франция има сложна езикова ситуация, свързана с откриването на PII:

Метрополитен френски: Стандартен френски, както се говори във Франция — основен език на всички официални документи.

DOM-TOM идентификатори: Отвъдморските територии (Мартиника, Гваделупа, Реюнион, Гвиана, Майот) имат свои собствени административни кодове в NIR номера (97, 98 префикс за отвъдморски департаменти) и местни конвенции за имена.

Елзаски контекст: Регионът Елзас-Мозел има исторически немски административни конвенции — имена с немски произход и някои немски формати на административни документи се появяват във френските административни записи.

Белгийски френски: За организации, работещи във Франция и Белгия, френският и белгийският формат на идентификатори се различават (NIR срещу белгийски национален регистрационен номер), а белгийският френски използва малко по-различни конвенции за имената.

За френско съответствие: NIR откриване с валидиране на ключ mod-97, откриване на SIREN/SIRET с валидиране на Luhn, NER на френски език с поддръжка на знаци с ударения (é, è, ê, ë, à, â, î, ô, û, ç, œ) и документирана среща за анонимизиране на CNIL 6-категорийна рамка за данни за обучение на AI.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.