Zpět na blogGDPR a shoda

CNIL Francie: Co evropský technicky nejnáročnější DPA...

CNIL zpracovala v roce 2023 16 433 stížností (+43 %). 63 % oznámení CNIL cituje nedostatečnou anonymizaci AI.

April 21, 20269 min čtení
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Francouzská Commission Nationale de l'Informatique et des Libertés (CNIL) je technicky nejnáročnějším úřadem pro ochranu dat v EU. Zatímco jiné DPA se zaměřují primárně na procedurální soulad, CNIL zveřejňuje podrobné technické pokyny — „recommandations" — které stanovují konkrétní algoritmické standardy pro anonymizaci, pseudonymizaci a správu dat AI. 63 % formálních oznámení CNIL v roce 2024 citovalo nedostatečnou anonymizaci v systémech AI.

Technický vliv CNIL mimo Francii

Technické pokyny CNIL jsou rutinně citovány jinými DPA EU:

Guide pratique de l'anonymisation (2023): Praktický průvodce anonymizací CNIL pokrývá k-anonymitu, l-diverzitu, diferenciální soukromí a jejich praktické uplatnění na francouzské datové sady. 12+ DPA EU odkazuje na tento průvodce ve svých vlastních vymáhacích pokynech (včetně IMY Švédsko, které vytvořilo vlastní verzi částečně na základě metodologie CNIL).

Pokyny pro systémy AI (2024): Pokyny CNIL pro správu AI pokrývají 6 povinných kategorií anonymizace pro tréninková data AI — nejkonkrétnější pokyny DPA EU k tomuto tématu.

Technické požadavky na cookies: Vymáhací pokyny CNIL pro cookies (pravidelně aktualizované) vyžadují specifické technické implementace pro platformy správy souhlasu — technicky nejkonkrétnější pokyny DPA k technologii souhlasu v EU.

NIR: Nejcitlivější identifikátor Francie

Numéro d'Inscription au Répertoire (NIR) — také nazývané numéro de sécurité sociale — je 15místné francouzské číslo sociálního pojištění ve formátu:

S AAMMDDCCC OOO K

Kde:

  • S = 1 číslice: pohlaví (1=muž, 2=žena)
  • AA = 2 číslice: rok narození
  • MM = 2 číslice: měsíc narození
  • DD = 2 číslice: département narození (01-95, 2A/2B pro Korsiku, 97-99 pro zámořská území, 99 pro zahraniční birth)
  • CCC = 3 číslice: kód obce v rámci département
  • OOO = 3 číslice: pořadové číslo narození
  • K = 2 číslice: kontrolní klíč (97 - (NIR mod 97))

NIR kóduje pohlaví, datum narození, místo narození a pořadí narození — čímž patří mezi nejinformačně bohaté národní identifikátory v EU. CNIL klasifikuje NIR jako vyžadující zvýšenou ochranu ekvivalentní zvláštní kategorii dat.

Výzva detekce: Generické NLP nástroje přehlíží NIR v 78 % dokumentů podle analýzy CNIL z roku 2024. Konkrétní selhání:

  • 15místná struktura NIR (bez oddělovačů v mnoha dokumentech) je zaměňována s jinými dlouhými číselnými sekvencemi
  • Kódování département/commune (číslice 7-11) vyžaduje geografické znalosti k validaci — nástroje, které neimplementují výpočet klíče mod-97, nemohou rozlišit platná čísla NIR od falešných pozitivů
  • Korsické département (2A/2B — písmena, nikoli číslice) narušují nástroje pro porovnávání vzorů, které očekávají pouze číselné znaky

SIREN/SIRET: Obchodní identifikátory ve francouzských dokumentech

Číslo SIREN: 9místné francouzské identifikační číslo společnosti s kontrolní číslicí Luhn. Vyskytuje se ve všech francouzských obchodních dokumentech.

Číslo SIRET: 14místné rozšíření SIREN (9místné SIREN + 5místné číslo pobočky). SIRET jedinečně identifikuje konkrétní obchodní pobočku, zatímco SIREN identifikuje entitu společnosti.

Obchodní dokumenty frequently obsahují čísla SIRET společně s osobními daty zástupců společností — vymáhací pokyny CNIL považují kombinaci SIRET + jméno jednotlivce za vytváření identifikovatelných informací, které spouštějí povinnosti GDPR.

Požadavky CNIL na anonymizaci AI

Pokyny CNIL pro AI z roku 2024 vyžadují 6 specifických kategorií anonymizace pro tréninková data AI zahrnující francouzská osobní data:

  1. Odstranění identifikátorů: Explicitní identifikátory (jméno, NIR, SIREN) musí být nahrazeny pseudonymy nebo odstraněny
  2. Generalizace quasi-identifikátorů: Atributy, které by mohly umožnit re-identifikaci v kombinaci (věk, département, profese), musí být zobecněny k snížení specifičnosti
  3. Přidání šumu: Numerickým atributům musí být přidán kalibrovaný šum, aby se zabránilo inferenci
  4. Ověření k-anonymity: Každý jednotlivec v datové sadě musí být nerozeznatelný od alespoň k-1 ostatních (CNIL doporučuje k≥5)
  5. Ověření l-diverzity: Hodnoty citlivých atributů musí mít adekvátní diverzitu v rámci každé třídy ekvivalence
  6. Hodnocení rizika re-identifikace: Před publikací musí datové sady projít hodnocením rizika re-identifikace pomocí zdokumentované metodologie

CNIL výslovně zjistila, že pouhé odstranění NIR a celého jména z datové sady není dostatečnou anonymizací. Další quasi-identifikátory (věk, PSČ, profese, lékařská specialita) musí být také řešeny.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.