Frankrigs Commission Nationale de l'Informatique et des Libertés (CNIL) er EU's mest teknisk krævende databeskyttelsesmyndighed. Mens andre DPA'er primært fokuserer på proceduremæssig overholdelse, offentliggør CNIL detaljerede tekniske retningslinjer — "recommandations" — der fastsætter specifikke algoritmiske standarder for anonymisering, pseudonymisering og AI-datastyring. 63% af CNIL's formelle meddelelser i 2024 nævnte utilstrækkelig anonymisering i AI-systemer.
CNIL's tekniske indflydelse uden for Frankrig
CNIL's tekniske retningslinjer bliver rutinemæssigt citeret af andre EU DPA'er:
Guide pratique de l'anonymisation (2023): CNIL's praktiske anonymiseringsguide dækker k-anonymitet, l-diversitet, differentiel privatliv og deres praktiske anvendelse på franske datasæt. 12+ EU DPA'er refererer til denne guide i deres egne håndhævelsesretningslinjer (herunder IMY Sverige, som producerede sin egen version delvist baseret på CNIL's metode).
AI-systemer vejledning (2024): CNIL's AI-styringsvejledning dækker 6 obligatoriske anonymiseringskategorier for AI-træningsdata — den mest specifikke EU DPA vejledning om dette emne.
Cookie tekniske krav: CNIL's cookie håndhævelsesvejledning (regelmæssigt opdateret) kræver specifikke tekniske implementeringer for samtykkehåndteringsplatforme — den mest teknisk specifikke DPA vejledning om samtykketeknologi i EU.
NIR: Frankrigs mest følsomme identifikator
Numéro d'Inscription au Répertoire (NIR) — også kaldet numéro de sécurité sociale — er et 15-cifret fransk CPR-nummer i formatet:
S AAMMDDCCC OOO K
Hvor:
- S = 1 ciffer: køn (1=mand, 2=kvinde)
- AA = 2 cifre: fødselsår
- MM = 2 cifre: fødselsmåned
- DD = 2 cifre: fødselsafdeling (01-95, 2A/2B for Korsika, 97-99 for oversøiske territorier, 99 for udenlandsk fødsel)
- CCC = 3 cifre: kommune kode inden for afdeling
- OOO = 3 cifre: fødselsrækkefølge nummer
- K = 2 cifre: kontrolnøgle (97 - (NIR mod 97))
NIR koder køn, fødselsdato, fødested og fødselsrækkefølge — hvilket gør det til en af de mest informationsrige nationale identifikatorer i EU. CNIL klassificerer NIR som krævende øget beskyttelse svarende til særlige kategoridata.
Detektionsudfordring: Generiske NLP-værktøjer overser NIR i 78% af dokumenterne ifølge CNIL's analyse fra 2024. De specifikke fejl:
- NIR's 15-cifrede struktur (uden separatorer i mange dokumenter) forveksles med andre lange nummersekvenser
- Afdeling/kommune kodning (cifre 7-11) kræver geografisk viden for at validere — værktøjer, der ikke implementerer mod-97 nøgleberegningen, kan ikke skelne gyldige NIR-numre fra falske positiver
- Korsikanske afdelinger (2A/2B — bogstaver, ikke cifre) bryder mønster-matchende værktøjer, der forventer kun numeriske tegn
SIREN/SIRET: Virksomhedsidentifikatorer i franske dokumenter
SIREN-nummer: 9-cifret fransk virksomhedsidentifikationsnummer med Luhn kontrolciffer. Forekommer i alle franske kommercielle dokumenter.
SIRET-nummer: 14-cifret udvidelse af SIREN (9-cifret SIREN + 5-cifret etableringsnummer). SIRET identificerer unikt en specifik virksomhedsetablering, mens SIREN identificerer virksomhedsenheden.
Virksomhedsdokumenter indeholder ofte SIRET-numre sammen med personlige data om virksomhedens repræsentanter — CNIL's håndhævelsesvejledning behandler kombinationen af SIRET + individets navn som skabende identificerbar information, der udløser GDPR-forpligtelser.
CNIL's AI-anonymiseringskrav
CNIL's AI-vejledning fra 2024 kræver 6 specifikke anonymiseringskategorier for AI-træningsdata, der involverer franske personoplysninger:
- Fjernelse af identifikator: Eksplisite identifikatorer (navn, NIR, SIREN) skal erstattes med pseudonymer eller fjernes
- Generalisering af quasi-identifikator: Attributter, der kunne muliggøre re-identifikation i kombination (alder, afdeling, profession) skal generaliseres for at reducere specificitet
- Tilføjelse af støj: Numeriske attributter skal have kalibreret støj tilføjet for at forhindre inferens
- k-anonymitetsverifikation: Hver enkelt i datasættet skal være uadskillelig fra mindst k-1 andre (CNIL anbefaler k≥5)
- l-diversitetsverifikation: Følsomme attributværdier skal have tilstrækkelig diversitet inden for hver ækvivalensklasse
- Risikovurdering af re-identifikation: Før offentliggørelse skal datasæt gennemgå en risikovurdering af re-identifikation ved hjælp af dokumenteret metode
CNIL har eksplicit fundet, at det blot at fjerne NIR og fuldt navn fra et datasæt ikke er tilstrækkelig anonymisering. Yderligere quasi-identifikatorer (alder, postnummer, profession, medicinsk specialitet) skal også adresseres.
Bilingual fransk/regional sprog kontekst
Frankrig har en kompleks sproglig situation, der er relevant for PII-detektion:
Metropolitansk fransk: Standardfransk som talt i Frankrig — primært sprog for alle officielle dokumenter.
DOM-TOM identifikatorer: Oversøiske territorier (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) har deres egne administrative koder i NIR-numre (97, 98 præfiks for oversøiske afdelinger) og lokale navnekonventioner.
Alsatian kontekst: Alsace-Moselle regionen har historiske tyske administrative konventioner — tysk-afledte navne og nogle tyske administrative dokumentformater optræder i franske administrative optegnelser.
Belgisk fransk: For organisationer, der opererer på tværs af Frankrig og Belgien, adskiller franske og belgiske identifikatorformater sig (NIR vs. belgisk nationalregisternummer), og belgisk fransk bruger lidt forskellige navnekonventioner.
For fransk overholdelse: NIR-detektion med mod-97 nøglevalidering, SIREN/SIRET-detektion med Luhn-validering, fransk sprog NER med understøttelse af accenterede tegn (é, è, ê, ë, à, â, î, ô, û, ç, œ), og dokumenteret anonymisering, der opfylder CNIL's 6-kategoriramme for AI-træningsdata.
Kilder: