Tilbake til BloggGDPR & Overholdelse

CNIL Frankrike: Hva Europas mest teknisk krevende datatilsyn krever fra PII-verktøy

CNIL behandlet 16 433 klager i 2023 (+43%). 63% av CNIL-varsler nevner utilstrekkelig AI-anonymisering. NIR/fransk personnummer ble ikke oppdaget av 78% av generiske verktøy. CNILs krav i 6-kategoris anonymiseringsguide.

March 7, 20269 min lesing
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Frankrikes Commission Nationale de l'Informatique et des Libertés (CNIL) er EU's mest teknisk krevende databeskyttelsesmyndighet. Mens andre datatilsyn primært fokuserer på prosedyremessig overholdelse, publiserer CNIL detaljerte tekniske retningslinjer — "recommandations" — som setter spesifikke algoritmiske standarder for anonymisering, pseudonymisering og AI-datastyring. 63% av CNILs formelle varsler i 2024 nevnte utilstrekkelig anonymisering i AI-systemer.

CNILs tekniske innflytelse utenfor Frankrike

CNILs tekniske retningslinjer blir rutinemessig sitert av andre EU-datatilsyn:

Guide pratique de l'anonymisation (2023): CNILs praktiske anonymiseringsguide dekker k-anonymitet, l-mangfold, differensial personvern, og deres praktiske anvendelse på franske datasett. 12+ EU-datatilsyn refererer til denne guiden i sine egne håndhevelsesretningslinjer (inkludert IMY Sverige, som produserte sin egen versjon basert delvis på CNILs metodikk).

AI-systemer retningslinjer (2024): CNILs AI-styringsretningslinjer dekker 6 obligatoriske anonymiseringskategorier for AI-treningsdata — den mest spesifikke EU-datatilsynsveiledningen om dette emnet.

Tekniske krav til informasjonskapsler: CNILs håndhevelsesveiledning for informasjonskapsler (regelmessig oppdatert) krever spesifikke tekniske implementeringer for samtykkehåndteringsplattformer — den mest teknisk spesifikke datatilsynsveiledningen om samtykketeknologi i EU.

NIR: Frankrikes mest sensitive identifikator

Numéro d'Inscription au Répertoire (NIR) — også kalt numéro de sécurité sociale — er et 15-sifret fransk personnummer i formatet:

S AAMMDDCCC OOO K

Hvor:

  • S = 1 siffer: kjønn (1=mann, 2=kvinne)
  • AA = 2 sifre: fødselsår
  • MM = 2 sifre: fødselsmåned
  • DD = 2 sifre: fødselsdepartement (01-95, 2A/2B for Korsika, 97-99 for oversjøiske territorier, 99 for utenlandsk fødsel)
  • CCC = 3 sifre: kommunenummer innen departementet
  • OOO = 3 sifre: fødselsrekkefølge nummer
  • K = 2 sifre: sjekkverdi (97 - (NIR mod 97))

NIR koder kjønn, fødselsdato, fødested og fødselsrekkefølge — noe som gjør det til en av de mest informasjonsrike nasjonale identifikatorene i EU. CNIL klassifiserer NIR som å kreve høyere beskyttelse tilsvarende spesielle kategoridata.

Oppdagelsesutfordring: Generiske NLP-verktøy overser NIR i 78% av dokumentene ifølge CNILs analyse fra 2024. De spesifikke feilene:

  • NIRs 15-sifrede struktur (uten separatorer i mange dokumenter) forveksles med andre lange tallsekvenser
  • Koding av departement/kommune (sifre 7-11) krever geografisk kunnskap for å validere — verktøy som ikke implementerer mod-97 nøkkelberegningen kan ikke skille gyldige NIR-numre fra falske positiver
  • Korsikanske departementer (2A/2B — bokstaver, ikke sifre) bryter mønstergjenkjenningsverktøy som forventer kun numeriske tegn

SIREN/SIRET: Forretningsidentifikatorer i franske dokumenter

SIREN-nummer: 9-sifret fransk selskapsidentifikasjonsnummer med Luhn sjekkverdi. Visas i alle franske kommersielle dokumenter.

SIRET-nummer: 14-sifret utvidelse av SIREN (9-sifret SIREN + 5-sifret etableringsnummer). SIRET identifiserer unikt en spesifikk forretningsetablering, mens SIREN identifiserer selskapet.

Forretningsdokumenter inneholder ofte SIRET-numre sammen med personopplysninger om selskapsrepresentanter — CNILs håndhevelsesveiledning behandler kombinasjonen av SIRET + individnavn som å skape identifiserbar informasjon som utløser GDPR-forpliktelser.

CNILs AI-anonymiseringskrav

CNILs AI-retningslinjer for 2024 krever 6 spesifikke anonymiseringskategorier for AI-treningsdata som involverer franske personopplysninger:

  1. Fjerning av identifikatorer: Eksplisitte identifikatorer (navn, NIR, SIREN) må erstattes med pseudonymer eller fjernes
  2. Generalisering av kvasi-identifikatorer: Attributter som kan muliggjøre re-identifikasjon i kombinasjon (alder, departement, yrke) må generaliseres for å redusere spesifisitet
  3. Støytilsetning: Numeriske attributter må ha kalibrert støy lagt til for å forhindre slutninger
  4. k-anonymitetsverifisering: Hver enkelt i datasettet må være uatskillelig fra minst k-1 andre (CNIL anbefaler k≥5)
  5. l-mangfoldsverifisering: Sensitive attributtverdier må ha tilstrekkelig mangfold innen hver ekvivalensklasse
  6. Re-identifikasjonsrisikovurdering: Før publisering må datasett gjennomgå re-identifikasjonsrisikovurdering ved hjelp av dokumentert metodikk

CNIL har eksplisitt funnet at det å bare fjerne NIR og fullt navn fra et datasett ikke er tilstrekkelig anonymisering. Ytterligere kvasi-identifikatorer (alder, postnummer, yrke, medisinsk spesialitet) må også adresseres.

Bilingval fransk/regional språk kontekst

Frankrike har en kompleks språksituasjon som er relevant for PII-detektering:

Metropolitansk fransk: Standard fransk som snakkes i Frankrike — hovedspråk for alle offisielle dokumenter.

DOM-TOM identifikatorer: Oversjøiske territorier (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) har sine egne administrative koder i NIR-numre (97, 98 prefiks for oversjøiske departementer) og lokale navnekonvensjoner.

Alsace-kontekst: Alsace-Moselle-regionen har historiske tyske administrative konvensjoner — tyske opprinnelsesnavn og noen tyske administrative dokumentformater vises i franske administrative registre.

Belgisk fransk: For organisasjoner som opererer i Frankrike og Belgia, er franske og belgiske identifikatorformater forskjellige (NIR vs. belgisk nasjonal registreringsnummer), og belgisk fransk bruker litt forskjellige navnekonvensjoner.

For fransk overholdelse: NIR-detektering med mod-97 nøkkelvalidering, SIREN/SIRET-detektering med Luhn-validering, franskspråklig NER med støtte for aksenttegn (é, è, ê, ë, à, â, î, ô, û, ç, œ), og dokumentert anonymisering som møter CNILs 6-kategoriramme for AI-treningsdata.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.