Френската Национална комисия за информация и свободи (CNIL) е най-взискателният технически орган в ЕС за защита на данните. Докато други DPA се фокусират предимно върху процедурното съответствие, CNIL публикува подробни технически насоки — „препоръки“ — които определят специфични алгоритмични стандарти за анонимизиране, псевдонимизиране и управление на данни с изкуствен интелект. 63% от официалните известия CNIL през 2024 г. цитират неадекватна анонимност в системите с изкуствен интелект.
ZPRZ0006 Техническото влияние на ZPRZ извън Франция
Техническите насоки на CNIL се цитират рутинно от други ОЗД на ЕС:
Guide pratique de l'anonymisation (2023): Практическото ръководство за анонимизиране на CNIL обхваща k-анонимност, l-разнообразие, диференциална поверителност и тяхното практическо приложение във френски набори от данни. 12+ ОЗД на ЕС се позовават на това ръководство в собствените си насоки за правоприлагане (включително IMY Швеция, която създаде своя собствена версия, базирана отчасти на методологията на CNIL).
Ръководство за системи с изкуствен интелект (2024 г.): Ръководството за управление на изкуствения интелект на CNIL обхваща 6 задължителни категории за анонимизиране на данни за обучение на изкуствен интелект — най-специфичните указания на DPA на ЕС по тази тема.
Технически изисквания за бисквитки: Ръководството на CNIL за прилагане на бисквитки (редовно актуализирано) изисква специфични технически внедрявания за платформи за управление на съгласие — най-специфичните технически насоки на DPA относно технологията за получаване на съгласие в ЕС.
NIR: Най-чувствителният идентификатор на Франция
Numéro d'Inscription au Répertoire (NIR) — наричан още numéro de sécurité sociale — е 15-цифрен френски социалноосигурителен номер във формата:
S AAMMDDCCC OOO K
където:
- S = 1 цифра: пол (1=мъжки, 2=женски)
- AA = 2 цифри: година на раждане
- MM = 2 цифри: месец на раждане
- DD = 2 цифри: отдел на раждане (01-95, 2A/2B за Корсика, 97-99 за отвъдморски територии, 99 за раждане в чужбина)
- CCC = 3 цифри: код на общината в отдела
- OOO = 3 цифри: пореден номер на раждане
- K = 2 цифри: ключ за проверка (97 - (NIR mod 97))
NIR кодира пол, дата на раждане, място на раждане и ред на раждане - което го прави сред най-богатите на информация национални идентификатори в ЕС. CNIL класифицира NIR като изискващ повишена защита, еквивалентна на данни от специална категория.
Предизвикателство при откриване: Генеричните NLP инструменти пропускат NIR в 78% от документите според анализа на CNIL от 2024 г. Конкретните неуспехи:
- 15-цифрената структура на NIR (без разделители в много документи) се бърка с други дълги числови последователности
- Кодирането на департамента/общината (цифри 7-11) изисква географски познания за валидиране — инструменти, които не прилагат изчислението на ключа mod-97, не могат да разграничат валидни NIR числа от фалшиви положителни резултати
- Корсиканските отдели (2A/2B — букви, не цифри) нарушават инструментите за съвпадение на шаблони, които очакват само цифрови знаци
SIREN/SIRET: Бизнес идентификатори във френски документи
SIREN номер: 9-цифрен френски идентификационен номер на фирма с контролна цифра на Luhn. Появява се във всички френски търговски документи.
SIRET номер: 14-цифрено разширение на SIREN (9-цифрен SIREN + 5-цифрен номер на предприятие). SIRET уникално идентифицира конкретно бизнес предприятие, докато SIREN идентифицира юридическото лице на компанията.
Бизнес документите често съдържат SIRET номера заедно с личните данни на представители на компанията — насоките за прилагане на CNIL третират комбинацията от SIRET + индивидуално име като създаване на идентифицираща информация, която задейства задължения по GDPR.
Изисквания за анонимизиране на AI на CNIL
Ръководството за AI на CNIL за 2024 г. изисква 6 специфични категории за анонимизиране на данни за обучение на AI, включващи френски лични данни:
- Премахване на идентификатор: Изричните идентификатори (име, NIR, SIREN) трябва да бъдат заменени с псевдоними или премахнати
- Обобщение на квазиидентификатора: Атрибутите, които биха могли да позволят повторна идентификация в комбинация (възраст, отдел, професия), трябва да бъдат обобщени, за да се намали специфичността
- Добавяне на шум: Числовите атрибути трябва да имат добавен калибриран шум, за да се предотврати извод
- k-проверка на анонимност: Всеки индивид в набора от данни трябва да бъде неразличим от поне k-1 други (CNIL препоръчва k≥5)
- l-проверка на разнообразието: Стойностите на чувствителни атрибути трябва да имат адекватно разнообразие във всеки клас на еквивалентност
- Оценка на риска от повторна идентификация: Преди публикуване наборите от данни трябва да бъдат подложени на оценка на риска от повторна идентификация, като се използва документирана методология
CNIL изрично установи, че простото премахване на NIR и пълното име от набор от данни не е достатъчна анонимност. Допълнителни квазиидентификатори (възраст, пощенски код, професия, медицинска специалност) също трябва да бъдат адресирани.
Контекст на двуезичен френски/регионален език
Франция има сложна езикова ситуация, свързана с откриването на PII:
Метрополитен френски: Стандартен френски, както се говори във Франция — основен език на всички официални документи.
DOM-TOM идентификатори: Отвъдморските територии (Мартиника, Гваделупа, Реюнион, Гвиана, Майот) имат свои собствени административни кодове в NIR номера (97, 98 префикс за отвъдморски департаменти) и местни конвенции за имена.
Елзаски контекст: Регионът Елзас-Мозел има исторически немски административни конвенции — имена с немски произход и някои немски формати на административни документи се появяват във френските административни записи.
Белгийски френски: За организации, работещи във Франция и Белгия, френският и белгийският формат на идентификатори се различават (NIR срещу белгийски национален регистрационен номер), а белгийският френски използва малко по-различни конвенции за имената.
За френско съответствие: NIR откриване с валидиране на ключ mod-97, откриване на SIREN/SIRET с валидиране на Luhn, NER на френски език с поддръжка на знаци с ударения (é, è, ê, ë, à, â, î, ô, û, ç, œ) и документирана среща за анонимизиране на CNIL 6-категорийна рамка за данни за обучение на AI.
Източници: