Tilbage til BlogGDPR & Overholdelse

CNIL Frankrig: Hvad Europas mest teknisk krævende DPA kræver fra PII-værktøjer

CNIL behandlede 16.433 klager i 2023 (+43%). 63% af CNIL-notifikationer nævner utilstrækkelig AI-anonymisering. NIR/fransk CPR-missede af 78% af generiske værktøjer. CNIL's krav til anonymisering i 6 kategorier.

March 7, 20269 min læsning
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Frankrigs Commission Nationale de l'Informatique et des Libertés (CNIL) er EU's mest teknisk krævende databeskyttelsesmyndighed. Mens andre DPA'er primært fokuserer på proceduremæssig overholdelse, offentliggør CNIL detaljerede tekniske retningslinjer — "recommandations" — der fastsætter specifikke algoritmiske standarder for anonymisering, pseudonymisering og AI-datastyring. 63% af CNIL's formelle meddelelser i 2024 nævnte utilstrækkelig anonymisering i AI-systemer.

CNIL's tekniske indflydelse uden for Frankrig

CNIL's tekniske retningslinjer bliver rutinemæssigt citeret af andre EU DPA'er:

Guide pratique de l'anonymisation (2023): CNIL's praktiske anonymiseringsguide dækker k-anonymitet, l-diversitet, differentiel privatliv og deres praktiske anvendelse på franske datasæt. 12+ EU DPA'er refererer til denne guide i deres egne håndhævelsesretningslinjer (herunder IMY Sverige, som producerede sin egen version delvist baseret på CNIL's metode).

AI-systemer vejledning (2024): CNIL's AI-styringsvejledning dækker 6 obligatoriske anonymiseringskategorier for AI-træningsdata — den mest specifikke EU DPA vejledning om dette emne.

Cookie tekniske krav: CNIL's cookie håndhævelsesvejledning (regelmæssigt opdateret) kræver specifikke tekniske implementeringer for samtykkehåndteringsplatforme — den mest teknisk specifikke DPA vejledning om samtykketeknologi i EU.

NIR: Frankrigs mest følsomme identifikator

Numéro d'Inscription au Répertoire (NIR) — også kaldet numéro de sécurité sociale — er et 15-cifret fransk CPR-nummer i formatet:

S AAMMDDCCC OOO K

Hvor:

  • S = 1 ciffer: køn (1=mand, 2=kvinde)
  • AA = 2 cifre: fødselsår
  • MM = 2 cifre: fødselsmåned
  • DD = 2 cifre: fødselsafdeling (01-95, 2A/2B for Korsika, 97-99 for oversøiske territorier, 99 for udenlandsk fødsel)
  • CCC = 3 cifre: kommune kode inden for afdeling
  • OOO = 3 cifre: fødselsrækkefølge nummer
  • K = 2 cifre: kontrolnøgle (97 - (NIR mod 97))

NIR koder køn, fødselsdato, fødested og fødselsrækkefølge — hvilket gør det til en af de mest informationsrige nationale identifikatorer i EU. CNIL klassificerer NIR som krævende øget beskyttelse svarende til særlige kategoridata.

Detektionsudfordring: Generiske NLP-værktøjer overser NIR i 78% af dokumenterne ifølge CNIL's analyse fra 2024. De specifikke fejl:

  • NIR's 15-cifrede struktur (uden separatorer i mange dokumenter) forveksles med andre lange nummersekvenser
  • Afdeling/kommune kodning (cifre 7-11) kræver geografisk viden for at validere — værktøjer, der ikke implementerer mod-97 nøgleberegningen, kan ikke skelne gyldige NIR-numre fra falske positiver
  • Korsikanske afdelinger (2A/2B — bogstaver, ikke cifre) bryder mønster-matchende værktøjer, der forventer kun numeriske tegn

SIREN/SIRET: Virksomhedsidentifikatorer i franske dokumenter

SIREN-nummer: 9-cifret fransk virksomhedsidentifikationsnummer med Luhn kontrolciffer. Forekommer i alle franske kommercielle dokumenter.

SIRET-nummer: 14-cifret udvidelse af SIREN (9-cifret SIREN + 5-cifret etableringsnummer). SIRET identificerer unikt en specifik virksomhedsetablering, mens SIREN identificerer virksomhedsenheden.

Virksomhedsdokumenter indeholder ofte SIRET-numre sammen med personlige data om virksomhedens repræsentanter — CNIL's håndhævelsesvejledning behandler kombinationen af SIRET + individets navn som skabende identificerbar information, der udløser GDPR-forpligtelser.

CNIL's AI-anonymiseringskrav

CNIL's AI-vejledning fra 2024 kræver 6 specifikke anonymiseringskategorier for AI-træningsdata, der involverer franske personoplysninger:

  1. Fjernelse af identifikator: Eksplisite identifikatorer (navn, NIR, SIREN) skal erstattes med pseudonymer eller fjernes
  2. Generalisering af quasi-identifikator: Attributter, der kunne muliggøre re-identifikation i kombination (alder, afdeling, profession) skal generaliseres for at reducere specificitet
  3. Tilføjelse af støj: Numeriske attributter skal have kalibreret støj tilføjet for at forhindre inferens
  4. k-anonymitetsverifikation: Hver enkelt i datasættet skal være uadskillelig fra mindst k-1 andre (CNIL anbefaler k≥5)
  5. l-diversitetsverifikation: Følsomme attributværdier skal have tilstrækkelig diversitet inden for hver ækvivalensklasse
  6. Risikovurdering af re-identifikation: Før offentliggørelse skal datasæt gennemgå en risikovurdering af re-identifikation ved hjælp af dokumenteret metode

CNIL har eksplicit fundet, at det blot at fjerne NIR og fuldt navn fra et datasæt ikke er tilstrækkelig anonymisering. Yderligere quasi-identifikatorer (alder, postnummer, profession, medicinsk specialitet) skal også adresseres.

Bilingual fransk/regional sprog kontekst

Frankrig har en kompleks sproglig situation, der er relevant for PII-detektion:

Metropolitansk fransk: Standardfransk som talt i Frankrig — primært sprog for alle officielle dokumenter.

DOM-TOM identifikatorer: Oversøiske territorier (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) har deres egne administrative koder i NIR-numre (97, 98 præfiks for oversøiske afdelinger) og lokale navnekonventioner.

Alsatian kontekst: Alsace-Moselle regionen har historiske tyske administrative konventioner — tysk-afledte navne og nogle tyske administrative dokumentformater optræder i franske administrative optegnelser.

Belgisk fransk: For organisationer, der opererer på tværs af Frankrig og Belgien, adskiller franske og belgiske identifikatorformater sig (NIR vs. belgisk nationalregisternummer), og belgisk fransk bruger lidt forskellige navnekonventioner.

For fransk overholdelse: NIR-detektion med mod-97 nøglevalidering, SIREN/SIRET-detektion med Luhn-validering, fransk sprog NER med understøttelse af accenterede tegn (é, è, ê, ë, à, â, î, ô, û, ç, œ), og dokumenteret anonymisering, der opfylder CNIL's 6-kategoriramme for AI-træningsdata.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.