CNIL Франция: Технически изисквания за инструменти за лични данни
Френският CNIL е най-взискателният надзорен орган за данни в ЕС. Повечето европейски регулатори издават широки правила. CNIL отива по-далеч. Той публикува прецизни технически насоки, наречени recommandations, които задават точни стандарти за анонимизация и използване на данни при AI.
Предписанията на CNIL от 2024 г. нерядко посочват слаба анонимизация в AI системите. Органът прие 16 433 жалби през 2023 г. — с 43% повече от 2022 г.
Насоките на CNIL формират политиката на ЕС
Техническите документи на CNIL се цитират широко от другите европейски надзорни органи. Два документа са с особено значение.
Guide pratique de l'anonymisation (2023): Това ръководство обхваща k-анонимност, l-разнообразие и диференциална поверителност. Показва как да се прилага всеки метод върху френски данни. Шведският IMY и други европейски органи го цитират в собствените си правила.
Насоки за AI системи (2024): CNIL изброява шест типа данни, с които трябва да се работи при обучение на AI. Нито един друг европейски надзорен орган не е отишъл толкова далеч по темата за AI.
Правила за бисквитки: Насоките на CNIL за бисквитките задават най-високата техническа летва за инструментите за съгласие в ЕС. Актуализират се редовно.
NIR: Най-чувствителният идентификатор на Франция
Numero d'Inscription au Repertoire (NIR) — известен и като numero de securite sociale — е 15-цифрен френски номер на социалното осигуряване.
Форматът му е: S AA MM DD CCC OOO K
- S — 1 цифра: пол
- AA — година на раждане
- MM — месец на раждане
- DD — департамент на раждане (01-95, 2A/2B за Корсика, 97-99 отвъдморски, 99 чуждестранни)
- CCC — код на общината
- OOO — ред на раждане
- K — 2-цифрен контролен ключ (97 - (NIR mod 97))
NIR съдържа пол, дата и място на раждане в един номер. CNIL го третира като данни с висок риск. Те изискват същото ниво на защита като данните от специални категории по член 9 от GDPR.
Защо инструментите пропускат NIR: Универсалните NLP инструменти не успяват да разпознаят NIR поради три причини. Първо, 15-те цифри (нерядко изписани без разделители) изглеждат като други дълги числа. Второ, цифри 7-11 съдържат код на департамент. Инструменти, пропускащи проверката mod-97, допускат фалшиви положителни. Трето, корсиканските департаменти използват 2A и 2B, а не само цифри. Инструменти, изградени за шаблони само с цифри, се провалят тук.
Доброто разпознаване на NIR изисква три неща: проверка на ключа по mod-97, географски речник на кодовете и правила, съобразени с Корсика.
Вижте нашия преглед на сигурността и съответствието за начина, по който покритието на идентификатори се вписва в стека от гаранции по GDPR.
SIREN и SIRET: Бизнес идентификатори в лични досиета
SIREN: 9-цифрен идентификатор на френска компания с контролна цифра по алгоритъма на Лун. Среща се в цялата французка търговска документация.
SIRET: 14-цифрен номер, съставен от SIREN (9 цифри) плюс код на обект (5 цифри). SIRET идентифицира обект. SIREN идентифицира компанията.
Бизнес досиетата нерядко съдържат SIRET числа до имена на служители. CNIL третира комбинацията SIRET + име като лични данни. Тази двойка задейства правилата на GDPR дори когато няма отделно поле за лични данни.
Шест стъпки за анонимизация при обучение на AI
Насоките на CNIL за AI от 2024 г. обхващат шест типа данни. С всеки трябва да се работи преди използването на французки лични данни за обучение на AI:
- Премахване на преки идентификатори — имена, NIR, SIREN трябва да бъдат заменени или премахнати
- Обобщаване на квази-идентификатори — възраст, департамент, професия могат да се комбинират и да доведат до идентификация; намалете тяхната точност
- Добавяне на шум към числови данни — числовите полета се нуждаят от калибриран шум, за да блокира извода
- Проверка на k-анонимност — всяко лице трябва да прилича на поне k-1 другите; CNIL препоръчва k >= 5
- Проверка на l-разнообразие — чувствителните атрибути трябва да варират в рамките на всяка група
- Оценка на риска от повторна идентификация — преди всяко предоставяне на данни използвайте документиран метод
Премахването само на NIR и пълното ime не е достатъчно. CNIL е установил това при прилагането. Квази-идентификатори като пощенски код и медицинска специалност също изискват обработка.
Нашето ръководство за съответствие с GDPR обхваща документите, които французките надзорни органи очакват при одит.
Езиков контекст за разпознаване на французки лични данни
Франция има няколко езикови контекста, влияещи върху разпознаването.
Стандартен френски е езикът на всички официални документи. NER моделите трябва да работят с ударени букви: e с ударения, a с ударения, i с ударения, o с ударения, u с ударения, cedilla, oe.
Отвъдморски територии (DOM-TOM): Мартиника, Гваделупа, Реюнион, Гвиана и Майот използват NIR кодове в диапазона 97-98. Местните именни шаблони се различават от тези на континентална Франция.
Елзас-Мозел: Имена от германски произход и някои германски документни формати се срещат в французки документи. Модели, обучени само на стандартен французки, може да ги пропускат.
Трансгранична употреба: Белгийският французки използва различен формат на идентификатор. Инструменти, използвани във Франция и Белгия, се нуждаят от правила за всеки.
Какво трябва да покрива вашият инструмент
Френското съответствие изисква четири технически способности:
- NIR с проверка mod-97 — Съпоставянето само по шаблон се проваля. Инструментите трябва да изпълняват проверката на ключа и да работят с кодовете 2A/2B.
- SIREN/SIRET с проверка по Лун — Бизнес идентификаторите се срещат в лични досиета и създават комбинации, обхванати от GDPR.
- Французки NER с пълна поддръжка на ударени символи — Трябва да работи с двойни имена (Jean-Pierre), частици (de, du, des) и ударени символи.
- Документиран шестстъпков процес — Всеки тръбопровод за обучение на AI върху французки данни се нуждае от писмен запис за всяка дейност по анонимизация.