Frankrikes Commission Nationale de l'Informatique et des Libertés (CNIL) är EU:s mest tekniskt krävande dataskyddsmyndighet. Medan andra DPA:er främst fokuserar på procedurmässig efterlevnad, publicerar CNIL detaljerade tekniska riktlinjer — "recommandations" — som ställer specifika algoritmiska standarder för anonymisering, pseudonymisering och AI-datastyrning. 63% av CNIL:s formella meddelanden 2024 nämnde otillräcklig anonymisering i AI-system.
CNIL:s tekniska inflytande utanför Frankrike
CNIL:s tekniska riktlinjer citeras rutinmässigt av andra EU DPA:er:
Guide pratique de l'anonymisation (2023): CNIL:s praktiska anonymiseringsguide täcker k-anonymitet, l-mångfald, differential privacy och deras praktiska tillämpning på franska dataset. 12+ EU DPA:er refererar till denna guide i sina egna verkställighetsriktlinjer (inklusive IMY Sverige, som producerade sin egen version delvis baserad på CNIL:s metodik).
AI systems guidance (2024): CNIL:s AI-styrningsriktlinjer täcker 6 obligatoriska anonymiseringskategorier för AI-träningsdata — den mest specifika EU DPA-riktlinjen om detta ämne.
Cookie technical requirements: CNIL:s riktlinjer för cookie-verkställighet (regelbundet uppdaterade) kräver specifika tekniska implementationer för samtyckeshanteringsplattformar — den mest tekniskt specifika DPA-riktlinjen om samtyckesteknologi i EU.
NIR: Frankrikes mest känsliga identifierare
Numéro d'Inscription au Répertoire (NIR) — även kallad numéro de sécurité sociale — är ett 15-siffrigt franskt personnummer i formatet:
S AAMMDDCCC OOO K
Där:
- S = 1 siffra: kön (1=man, 2=kvinna)
- AA = 2 siffror: födelseår
- MM = 2 siffror: födelsemånad
- DD = 2 siffror: födelseavdelning (01-95, 2A/2B för Korsika, 97-99 för utomeuropeiska territorier, 99 för utländsk födelse)
- CCC = 3 siffror: kommunkod inom avdelningen
- OOO = 3 siffror: födelseordning
- K = 2 siffror: kontrollnyckel (97 - (NIR mod 97))
NIR kodar kön, födelsedatum, födelseort och födelseordning — vilket gör den till en av de mest informationsrika nationella identifierarna i EU. CNIL klassificerar NIR som att kräva ökat skydd motsvarande särskilda kategoridata.
Detektionsutmaning: Generiska NLP-verktyg missar NIR i 78% av dokumenten enligt CNIL:s analys 2024. De specifika felen:
- NIR:s 15-siffriga struktur (utan avgränsare i många dokument) förväxlas med andra långa nummerserier
- Avdelnings-/kommunkodningen (siffror 7-11) kräver geografisk kunskap för att validera — verktyg som inte implementerar mod-97 nyckelberäkningen kan inte särskilja giltiga NIR-nummer från falska positiva
- Korsikanska avdelningar (2A/2B — bokstäver, inte siffror) bryter mönsterigenkänningverktyg som förväntar sig endast numeriska tecken
SIREN/SIRET: Företagsidentifierare i franska dokument
SIREN-nummer: 9-siffrigt franskt företagsidentifieringsnummer med Luhn-kontrollsiffra. Förekommer i alla franska kommersiella dokument.
SIRET-nummer: 14-siffrigt tillägg av SIREN (9-siffrigt SIREN + 5-siffrigt etableringsnummer). SIRET identifierar unikt en specifik företagsetablering, medan SIREN identifierar företagsenheten.
Affärsdokument innehåller ofta SIRET-nummer tillsammans med personuppgifter om företagsrepresentanter — CNIL:s verkställighetsriktlinjer behandlar kombinationen av SIRET + individens namn som skapande av identifierbar information som utlöser GDPR-åtaganden.
CNIL:s AI-anonymiseringskrav
CNIL:s AI-riktlinjer för 2024 kräver 6 specifika anonymiseringskategorier för AI-träningsdata som involverar franska personuppgifter:
- Identifierar borttagning: Explicit identifierare (namn, NIR, SIREN) måste ersättas med pseudonymer eller tas bort
- Quasi-identifier generalisering: Attribut som kan möjliggöra återidentifiering i kombination (ålder, avdelning, yrke) måste generaliseras för att minska specificitet
- Brusaddition: Numeriska attribut måste ha kalibrerat brus tillagt för att förhindra slutsatser
- k-anonymitetsverifiering: Varje individ i datasetet måste vara odiskutabel från minst k-1 andra (CNIL rekommenderar k≥5)
- l-mångfaldsverifiering: Känsliga attributvärden måste ha tillräcklig mångfald inom varje ekvivalensklass
- Återidentifieringsriskbedömning: Innan publicering måste dataset genomgå en återidentifieringsriskbedömning med dokumenterad metodik
CNIL har uttryckligen funnit att det helt enkelt att ta bort NIR och fullständigt namn från ett dataset inte är tillräcklig anonymisering. Ytterligare quasi-identifikatorer (ålder, postnummer, yrke, medicinsk specialitet) måste också beaktas.
Bilingual French/Regional Language Context
Frankrike har en komplex språklig situation som är relevant för PII-detektion:
Metropolitansk franska: Standardfranska som talas i Frankrike — huvudspråk för alla officiella dokument.
DOM-TOM identifierare: Utomeuropeiska territorier (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) har sina egna administrativa koder i NIR-nummer (97, 98 prefix för utomeuropeiska avdelningar) och lokala namnkonventioner.
Alsatiansk kontext: Alsace-Moselle-regionen har historiska tyska administrativa konventioner — tyskt ursprungna namn och vissa tyska administrativa dokumentformat förekommer i franska administrativa register.
Belgisk franska: För organisationer som verkar över Frankrike och Belgien skiljer sig franska och belgiska identifierarformat (NIR vs. belgiskt nationellt registreringsnummer), och belgisk franska använder något olika namnkonventioner.
För fransk efterlevnad: NIR-detektion med mod-97 nyckelvalidering, SIREN/SIRET-detektion med Luhn-validering, franskspråkig NER med stöd för accenterade tecken (é, è, ê, ë, à, â, î, ô, û, ç, œ), och dokumenterad anonymisering som uppfyller CNIL:s 6-kategoriramverk för AI-träningsdata.
Källor: