Frankrikes Commission Nationale de l'Informatique et des Libertés (CNIL) er EU's mest teknisk krevende databeskyttelsesmyndighet. Mens andre datatilsyn primært fokuserer på prosedyremessig overholdelse, publiserer CNIL detaljerte tekniske retningslinjer — "recommandations" — som setter spesifikke algoritmiske standarder for anonymisering, pseudonymisering og AI-datastyring. 63% av CNILs formelle varsler i 2024 nevnte utilstrekkelig anonymisering i AI-systemer.
CNILs tekniske innflytelse utenfor Frankrike
CNILs tekniske retningslinjer blir rutinemessig sitert av andre EU-datatilsyn:
Guide pratique de l'anonymisation (2023): CNILs praktiske anonymiseringsguide dekker k-anonymitet, l-mangfold, differensial personvern, og deres praktiske anvendelse på franske datasett. 12+ EU-datatilsyn refererer til denne guiden i sine egne håndhevelsesretningslinjer (inkludert IMY Sverige, som produserte sin egen versjon basert delvis på CNILs metodikk).
AI-systemer retningslinjer (2024): CNILs AI-styringsretningslinjer dekker 6 obligatoriske anonymiseringskategorier for AI-treningsdata — den mest spesifikke EU-datatilsynsveiledningen om dette emnet.
Tekniske krav til informasjonskapsler: CNILs håndhevelsesveiledning for informasjonskapsler (regelmessig oppdatert) krever spesifikke tekniske implementeringer for samtykkehåndteringsplattformer — den mest teknisk spesifikke datatilsynsveiledningen om samtykketeknologi i EU.
NIR: Frankrikes mest sensitive identifikator
Numéro d'Inscription au Répertoire (NIR) — også kalt numéro de sécurité sociale — er et 15-sifret fransk personnummer i formatet:
S AAMMDDCCC OOO K
Hvor:
- S = 1 siffer: kjønn (1=mann, 2=kvinne)
- AA = 2 sifre: fødselsår
- MM = 2 sifre: fødselsmåned
- DD = 2 sifre: fødselsdepartement (01-95, 2A/2B for Korsika, 97-99 for oversjøiske territorier, 99 for utenlandsk fødsel)
- CCC = 3 sifre: kommunenummer innen departementet
- OOO = 3 sifre: fødselsrekkefølge nummer
- K = 2 sifre: sjekkverdi (97 - (NIR mod 97))
NIR koder kjønn, fødselsdato, fødested og fødselsrekkefølge — noe som gjør det til en av de mest informasjonsrike nasjonale identifikatorene i EU. CNIL klassifiserer NIR som å kreve høyere beskyttelse tilsvarende spesielle kategoridata.
Oppdagelsesutfordring: Generiske NLP-verktøy overser NIR i 78% av dokumentene ifølge CNILs analyse fra 2024. De spesifikke feilene:
- NIRs 15-sifrede struktur (uten separatorer i mange dokumenter) forveksles med andre lange tallsekvenser
- Koding av departement/kommune (sifre 7-11) krever geografisk kunnskap for å validere — verktøy som ikke implementerer mod-97 nøkkelberegningen kan ikke skille gyldige NIR-numre fra falske positiver
- Korsikanske departementer (2A/2B — bokstaver, ikke sifre) bryter mønstergjenkjenningsverktøy som forventer kun numeriske tegn
SIREN/SIRET: Forretningsidentifikatorer i franske dokumenter
SIREN-nummer: 9-sifret fransk selskapsidentifikasjonsnummer med Luhn sjekkverdi. Visas i alle franske kommersielle dokumenter.
SIRET-nummer: 14-sifret utvidelse av SIREN (9-sifret SIREN + 5-sifret etableringsnummer). SIRET identifiserer unikt en spesifikk forretningsetablering, mens SIREN identifiserer selskapet.
Forretningsdokumenter inneholder ofte SIRET-numre sammen med personopplysninger om selskapsrepresentanter — CNILs håndhevelsesveiledning behandler kombinasjonen av SIRET + individnavn som å skape identifiserbar informasjon som utløser GDPR-forpliktelser.
CNILs AI-anonymiseringskrav
CNILs AI-retningslinjer for 2024 krever 6 spesifikke anonymiseringskategorier for AI-treningsdata som involverer franske personopplysninger:
- Fjerning av identifikatorer: Eksplisitte identifikatorer (navn, NIR, SIREN) må erstattes med pseudonymer eller fjernes
- Generalisering av kvasi-identifikatorer: Attributter som kan muliggjøre re-identifikasjon i kombinasjon (alder, departement, yrke) må generaliseres for å redusere spesifisitet
- Støytilsetning: Numeriske attributter må ha kalibrert støy lagt til for å forhindre slutninger
- k-anonymitetsverifisering: Hver enkelt i datasettet må være uatskillelig fra minst k-1 andre (CNIL anbefaler k≥5)
- l-mangfoldsverifisering: Sensitive attributtverdier må ha tilstrekkelig mangfold innen hver ekvivalensklasse
- Re-identifikasjonsrisikovurdering: Før publisering må datasett gjennomgå re-identifikasjonsrisikovurdering ved hjelp av dokumentert metodikk
CNIL har eksplisitt funnet at det å bare fjerne NIR og fullt navn fra et datasett ikke er tilstrekkelig anonymisering. Ytterligere kvasi-identifikatorer (alder, postnummer, yrke, medisinsk spesialitet) må også adresseres.
Bilingval fransk/regional språk kontekst
Frankrike har en kompleks språksituasjon som er relevant for PII-detektering:
Metropolitansk fransk: Standard fransk som snakkes i Frankrike — hovedspråk for alle offisielle dokumenter.
DOM-TOM identifikatorer: Oversjøiske territorier (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) har sine egne administrative koder i NIR-numre (97, 98 prefiks for oversjøiske departementer) og lokale navnekonvensjoner.
Alsace-kontekst: Alsace-Moselle-regionen har historiske tyske administrative konvensjoner — tyske opprinnelsesnavn og noen tyske administrative dokumentformater vises i franske administrative registre.
Belgisk fransk: For organisasjoner som opererer i Frankrike og Belgia, er franske og belgiske identifikatorformater forskjellige (NIR vs. belgisk nasjonal registreringsnummer), og belgisk fransk bruker litt forskjellige navnekonvensjoner.
For fransk overholdelse: NIR-detektering med mod-97 nøkkelvalidering, SIREN/SIRET-detektering med Luhn-validering, franskspråklig NER med støtte for aksenttegn (é, è, ê, ë, à, â, î, ô, û, ç, œ), og dokumentert anonymisering som møter CNILs 6-kategoriramme for AI-treningsdata.
Kilder: