Francouzská Commission Nationale de l'Informatique et des Libertés (CNIL) je technicky nejnáročnějším úřadem pro ochranu dat v EU. Zatímco jiné DPA se zaměřují primárně na procedurální soulad, CNIL zveřejňuje podrobné technické pokyny — „recommandations" — které stanovují konkrétní algoritmické standardy pro anonymizaci, pseudonymizaci a správu dat AI. 63 % formálních oznámení CNIL v roce 2024 citovalo nedostatečnou anonymizaci v systémech AI.
Technický vliv CNIL mimo Francii
Technické pokyny CNIL jsou rutinně citovány jinými DPA EU:
Guide pratique de l'anonymisation (2023): Praktický průvodce anonymizací CNIL pokrývá k-anonymitu, l-diverzitu, diferenciální soukromí a jejich praktické uplatnění na francouzské datové sady. 12+ DPA EU odkazuje na tento průvodce ve svých vlastních vymáhacích pokynech (včetně IMY Švédsko, které vytvořilo vlastní verzi částečně na základě metodologie CNIL).
Pokyny pro systémy AI (2024): Pokyny CNIL pro správu AI pokrývají 6 povinných kategorií anonymizace pro tréninková data AI — nejkonkrétnější pokyny DPA EU k tomuto tématu.
Technické požadavky na cookies: Vymáhací pokyny CNIL pro cookies (pravidelně aktualizované) vyžadují specifické technické implementace pro platformy správy souhlasu — technicky nejkonkrétnější pokyny DPA k technologii souhlasu v EU.
NIR: Nejcitlivější identifikátor Francie
Numéro d'Inscription au Répertoire (NIR) — také nazývané numéro de sécurité sociale — je 15místné francouzské číslo sociálního pojištění ve formátu:
S AAMMDDCCC OOO K
Kde:
- S = 1 číslice: pohlaví (1=muž, 2=žena)
- AA = 2 číslice: rok narození
- MM = 2 číslice: měsíc narození
- DD = 2 číslice: département narození (01-95, 2A/2B pro Korsiku, 97-99 pro zámořská území, 99 pro zahraniční birth)
- CCC = 3 číslice: kód obce v rámci département
- OOO = 3 číslice: pořadové číslo narození
- K = 2 číslice: kontrolní klíč (97 - (NIR mod 97))
NIR kóduje pohlaví, datum narození, místo narození a pořadí narození — čímž patří mezi nejinformačně bohaté národní identifikátory v EU. CNIL klasifikuje NIR jako vyžadující zvýšenou ochranu ekvivalentní zvláštní kategorii dat.
Výzva detekce: Generické NLP nástroje přehlíží NIR v 78 % dokumentů podle analýzy CNIL z roku 2024. Konkrétní selhání:
- 15místná struktura NIR (bez oddělovačů v mnoha dokumentech) je zaměňována s jinými dlouhými číselnými sekvencemi
- Kódování département/commune (číslice 7-11) vyžaduje geografické znalosti k validaci — nástroje, které neimplementují výpočet klíče mod-97, nemohou rozlišit platná čísla NIR od falešných pozitivů
- Korsické département (2A/2B — písmena, nikoli číslice) narušují nástroje pro porovnávání vzorů, které očekávají pouze číselné znaky
SIREN/SIRET: Obchodní identifikátory ve francouzských dokumentech
Číslo SIREN: 9místné francouzské identifikační číslo společnosti s kontrolní číslicí Luhn. Vyskytuje se ve všech francouzských obchodních dokumentech.
Číslo SIRET: 14místné rozšíření SIREN (9místné SIREN + 5místné číslo pobočky). SIRET jedinečně identifikuje konkrétní obchodní pobočku, zatímco SIREN identifikuje entitu společnosti.
Obchodní dokumenty frequently obsahují čísla SIRET společně s osobními daty zástupců společností — vymáhací pokyny CNIL považují kombinaci SIRET + jméno jednotlivce za vytváření identifikovatelných informací, které spouštějí povinnosti GDPR.
Požadavky CNIL na anonymizaci AI
Pokyny CNIL pro AI z roku 2024 vyžadují 6 specifických kategorií anonymizace pro tréninková data AI zahrnující francouzská osobní data:
- Odstranění identifikátorů: Explicitní identifikátory (jméno, NIR, SIREN) musí být nahrazeny pseudonymy nebo odstraněny
- Generalizace quasi-identifikátorů: Atributy, které by mohly umožnit re-identifikaci v kombinaci (věk, département, profese), musí být zobecněny k snížení specifičnosti
- Přidání šumu: Numerickým atributům musí být přidán kalibrovaný šum, aby se zabránilo inferenci
- Ověření k-anonymity: Každý jednotlivec v datové sadě musí být nerozeznatelný od alespoň k-1 ostatních (CNIL doporučuje k≥5)
- Ověření l-diverzity: Hodnoty citlivých atributů musí mít adekvátní diverzitu v rámci každé třídy ekvivalence
- Hodnocení rizika re-identifikace: Před publikací musí datové sady projít hodnocením rizika re-identifikace pomocí zdokumentované metodologie
CNIL výslovně zjistila, že pouhé odstranění NIR a celého jména z datové sady není dostatečnou anonymizací. Další quasi-identifikátory (věk, PSČ, profese, lékařská specialita) musí být také řešeny.
Zdroje: