CNIL Позицията на най-взискателния в техническо отношение DPA в ЕС
Националната комисия за информация и свободи на Франция (CNIL) публикува най-подробните и технически специфични насоки на ЕС относно защитата на данните. Когато повечето DPA на ЕС издават общи насоки, CNIL публикува „препоръки“ — подробни технически спецификации, които представляват тълкуването на CNIL за това какво изисква съответствието с GDPR.
Тази техническа строгост утвърди CNIL като еталон на ЕС за инженерство за поверителност. Други DPA на ЕС често се позовават на техническите публикации на CNIL, по-специално на неговото „Guide pratique de l'anonymisation“ от 2023 г. (практическо ръководство за анонимизиране) и 2024 г. за генериращи насоки за AI.
CNIL е обработил 16 433 жалби през 2023 г. — 43% увеличение спрямо 2022 г. — и е издал приблизително 150 милиона евро под формата на глоби GDPR от 2018 г. насам. Ускоряването на обема на жалбите отразява както нарастващата обществена осведоменост, така и кампаниите на CNIL за популяризиране, насърчаващи субектите на данни да упражняват правата си.
CNIL Изисквания за анонимизиране на данни за обучение на AI
Ръководството за генериране на AI на CNIL за 2024 г. („Systèmes d'IA générative“) установява обвързващи изисквания за организациите, които обучават AI модели на френски лични данни или внедряват AI системи, които обработват данни на френски потребители.
Ръководството идентифицира шест задължителни категории за анонимизиране на данните за обучение на AI:
- Идентификатори насочва (директни идентификатори): Имена, адреси, идентификационни номера — трябва да бъдат премахнати или заменени преди обучение за AI
- Идентификатори квазидиректи (квазиидентификатори): Комбинации от атрибути, които позволяват повторна идентификация — трябва да бъдат оценени за k-анонимност
- Données sensibles (специални категории): Здравни, биометрични, политически, религиозни данни — трябва да бъдат отделени с допълнителни мерки за анонимизиране
- Données comportementales (данни за поведението): История на сърфиране, модели на взаимодействие — трябва да бъдат обобщени или псевдонимизирани
- Données inférées (изведени данни): Изведени от AI характеристики от поведенчески данни — предмет на контрол за ограничаване на целта
- Données relatives aux mineurs (данни за деца): Всички данни, потенциално свързани с лица под 15 години — задължителна проверка на възрастта и подобрена анонимност
За организации, използващи магистри по обучение, обучени на данни, събрани в мрежата (често срещан подход), ръководството на CNIL изисква документация, че данните за обучението са оценени спрямо тези шест категории и е приложена подходяща анонимност.
Изискванията на „Guide Pratique de l'Anonymisation“.
Ръководството за анонимизиране на CNIL за 2023 г. е най-подробното официално ръководство на ЕС за това какво технически представлява анонимизирането. Основни изисквания:
Техники за анонимизиране, одобрени от CNIL:
- k-анонимност: гарантиране, че всеки запис е неразличим от поне k-1 други записи
- l-разнообразие: изискване на разнообразие в чувствителните атрибути в рамките на класовете за еквивалентност
- Диференциална поверителност: добавяне на калибриран шум към статистическите резултати
- Псевдонимизиране (изрично отбелязано като не анонимизиране, а мярка за намаляване на риска)
Изисквания към документацията: Ръководството на CNIL изисква организациите да поддържат „fiche d'anonimization“ (запис за анонимизиране) за всяка дейност по обработка, използваща анонимизиране, документиране на: приложената техника за анонимизиране, използваните параметри (k стойност за k-анонимност, епсилон стойност за диференциална поверителност), оценката на остатъчния риск от повторна идентификация и методологията за валидиране.
Оценка на риска от повторна идентификация: CNIL изисква от организациите да извършат оценка на риска от повторна идентификация, преди да заявят, че данните са анонимизирани. Оценката трябва да вземе предвид: теста за „мотивиран натрапник“ (може ли мотивиран индивид да идентифицира повторно данните?), наличните спомагателни набори от данни и специфичния контекст на данните.
CNIL Съображения за откриване на PII на френски език
За организациите, обработващи данни на френски език, ръководството на CNIL имплицитно изисква инструментите за откриване на PII да обхващат PII на френски език. Френски специфични типове обекти, които трябва да бъдат открити:
- Numéro de Sécurité Sociale (NIR): 13-цифрен френски социалноосигурителен номер с валидиране на специфичен формат
- Carte vitale number: Идентификатор на здравноосигурителна карта, използван във френската здравна администрация
- Numéro d'identification au répertoire (NIR): Идентификатор на регистъра на населението
- SIRET/SIREN: Бизнес идентификатори, които може да се появят в личен бизнес контекст
- Numéro d'ordre professionnel: Професионални регистрационни номера (лекари, адвокати, счетоводители)
- Carte nationale d'identité (CNI): Номер на френската лична карта
Френските NER модели за откриване на имена на лица трябва също така да се справят с френските конвенции за именуване: съставни имена (Jean-Pierre), имена с тирета, частици (de, du, des) и специфични за френския език модели на имена.
CNIL Enforcement: AI Fine Pattern
Принудителните действия на CNIL срещу AI системи създават прецедента за това какво означават „адекватни технически мерки“ в контекста на AI:
Clearview AI (20 милиона евро глоба, 2022 г.): Обработка на биометрични данни на френски лица без правно основание, събрани от публични уеб източници. Установено е, че груповото събиране на лични данни в мрежата за обучение по изкуствен интелект изисква изрично правно основание.
Разследване на TikTok (продължава 2024-2025 г.): Фокусирано върху системи за алгоритмични препоръки, които могат да изведат чувствителни категории от поведенчески данни. Методологията за разследване на CNIL се превърна в стандарт на ЕС за одити на AI системи.
Генеративен AI преглед (2024-2025): CNIL проведе систематични прегледи на доставчици на LLM, работещи във Франция, като се фокусира върху произхода на данните за обучение и анонимизирането. Доставчиците без документирани процедури за анонимизиране на данните на френските потребители трябваше да прилагат контрол.
Моделът: прилагането на CNIL се фокусира върху техническата неадекватност — липсата на документиран технически контрол — по-скоро отколкото върху чисто процедурни нарушения.
Внедряване на CNIL-съвместима документация за анонимизиране
За френски организации или организации, обслужващи френски потребители, CNIL-съвместима позиция за анонимизиране изисква:
1. Fiche d'anonimization (запис за анонимизиране) за всяка дейност по обработка:
- Цел на обработката и категории данни
- Приложена техника за анонимизиране (с параметри)
- Резултат от оценка на риска от повторна идентификация
- Метод на валидиране (тестване, външен преглед)
- Отговорник и дата на преглед
2. Предварителна обработка за AI системи:
- Документирайте използвания инструмент за откриване на PII и конфигурация
- Запишете типовете обекти, открити и премахнати/псевдонимизирани
- Поддържане на регистрационни файлове за обработка на заявки за одит CNIL
3. Покритие на френскоезични PII:
- Проверете покритието на откриване за френски специфични идентификатори (NIR, carte vitale, CNI)
- Потвърдете представянето на френския NER модел на френски лични имена
- Документиране на пропуски в покритието и компенсиращи контроли
4. Произход на данни за обучение:
- За системи с изкуствен интелект, обучени на данни, извлечени от мрежата: документирайте оценката на анонимизирането на набора от изходни данни
- За AI системи, обучени на потребителски данни: документирайте процеса на анонимизиране на потребителските данни
Исканията за проверка на CNIL за системи с изкуствен интелект рутинно включват искания за тези документи. Организациите с предварително съществуваща документация удовлетворяват изискванията за проверка значително по-бързо от тези, които извършват оценки реактивно.
Източници: