Tillbaka till BloggenGDPR & Efterlevnad

CNIL Frankrike: Vad Europas mest tekniskt krävande...

CNIL hanterade 16 433 klagomål 2023 (+43%). 63% av CNIL:s meddelanden nämner otillräcklig AI-anonymisering.

April 21, 20269 min läsning
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Frankrikes Commission Nationale de l'Informatique et des Libertés (CNIL) är EU:s mest tekniskt krävande dataskyddsmyndighet. Medan andra DPA:er främst fokuserar på procedurmässig efterlevnad, publicerar CNIL detaljerade tekniska riktlinjer — "recommandations" — som ställer specifika algoritmiska standarder för anonymisering, pseudonymisering och AI-datastyrning. 63% av CNIL:s formella meddelanden 2024 nämnde otillräcklig anonymisering i AI-system.

CNIL:s tekniska inflytande utanför Frankrike

CNIL:s tekniska riktlinjer citeras rutinmässigt av andra EU DPA:er:

Guide pratique de l'anonymisation (2023): CNIL:s praktiska anonymiseringsguide täcker k-anonymitet, l-mångfald, differential privacy och deras praktiska tillämpning på franska dataset. 12+ EU DPA:er refererar till denna guide i sina egna verkställighetsriktlinjer (inklusive IMY Sverige, som producerade sin egen version delvis baserad på CNIL:s metodik).

AI systems guidance (2024): CNIL:s AI-styrningsriktlinjer täcker 6 obligatoriska anonymiseringskategorier för AI-träningsdata — den mest specifika EU DPA-riktlinjen om detta ämne.

Cookie technical requirements: CNIL:s riktlinjer för cookie-verkställighet (regelbundet uppdaterade) kräver specifika tekniska implementationer för samtyckeshanteringsplattformar — den mest tekniskt specifika DPA-riktlinjen om samtyckesteknologi i EU.

NIR: Frankrikes mest känsliga identifierare

Numéro d'Inscription au Répertoire (NIR) — även kallad numéro de sécurité sociale — är ett 15-siffrigt franskt personnummer i formatet:

S AAMMDDCCC OOO K

Där:

  • S = 1 siffra: kön (1=man, 2=kvinna)
  • AA = 2 siffror: födelseår
  • MM = 2 siffror: födelsemånad
  • DD = 2 siffror: födelseavdelning (01-95, 2A/2B för Korsika, 97-99 för utomeuropeiska territorier, 99 för utländsk födelse)
  • CCC = 3 siffror: kommunkod inom avdelningen
  • OOO = 3 siffror: födelseordning
  • K = 2 siffror: kontrollnyckel (97 - (NIR mod 97))

NIR kodar kön, födelsedatum, födelseort och födelseordning — vilket gör den till en av de mest informationsrika nationella identifierarna i EU. CNIL klassificerar NIR som att kräva ökat skydd motsvarande särskilda kategoridata.

Detektionsutmaning: Generiska NLP-verktyg missar NIR i 78% av dokumenten enligt CNIL:s analys 2024. De specifika felen:

  • NIR:s 15-siffriga struktur (utan avgränsare i många dokument) förväxlas med andra långa nummerserier
  • Avdelnings-/kommunkodningen (siffror 7-11) kräver geografisk kunskap för att validera — verktyg som inte implementerar mod-97 nyckelberäkningen kan inte särskilja giltiga NIR-nummer från falska positiva
  • Korsikanska avdelningar (2A/2B — bokstäver, inte siffror) bryter mönsterigenkänningverktyg som förväntar sig endast numeriska tecken

SIREN/SIRET: Företagsidentifierare i franska dokument

SIREN-nummer: 9-siffrigt franskt företagsidentifieringsnummer med Luhn-kontrollsiffra. Förekommer i alla franska kommersiella dokument.

SIRET-nummer: 14-siffrigt tillägg av SIREN (9-siffrigt SIREN + 5-siffrigt etableringsnummer). SIRET identifierar unikt en specifik företagsetablering, medan SIREN identifierar företagsenheten.

Affärsdokument innehåller ofta SIRET-nummer tillsammans med personuppgifter om företagsrepresentanter — CNIL:s verkställighetsriktlinjer behandlar kombinationen av SIRET + individens namn som skapande av identifierbar information som utlöser GDPR-åtaganden.

CNIL:s AI-anonymiseringskrav

CNIL:s AI-riktlinjer för 2024 kräver 6 specifika anonymiseringskategorier för AI-träningsdata som involverar franska personuppgifter:

  1. Identifierar borttagning: Explicit identifierare (namn, NIR, SIREN) måste ersättas med pseudonymer eller tas bort
  2. Quasi-identifier generalisering: Attribut som kan möjliggöra återidentifiering i kombination (ålder, avdelning, yrke) måste generaliseras för att minska specificitet
  3. Brusaddition: Numeriska attribut måste ha kalibrerat brus tillagt för att förhindra slutsatser
  4. k-anonymitetsverifiering: Varje individ i datasetet måste vara odiskutabel från minst k-1 andra (CNIL rekommenderar k≥5)
  5. l-mångfaldsverifiering: Känsliga attributvärden måste ha tillräcklig mångfald inom varje ekvivalensklass
  6. Återidentifieringsriskbedömning: Innan publicering måste dataset genomgå en återidentifieringsriskbedömning med dokumenterad metodik

CNIL har uttryckligen funnit att det helt enkelt att ta bort NIR och fullständigt namn från ett dataset inte är tillräcklig anonymisering. Ytterligare quasi-identifikatorer (ålder, postnummer, yrke, medicinsk specialitet) måste också beaktas.

Bilingual French/Regional Language Context

Frankrike har en komplex språklig situation som är relevant för PII-detektion:

Metropolitansk franska: Standardfranska som talas i Frankrike — huvudspråk för alla officiella dokument.

DOM-TOM identifierare: Utomeuropeiska territorier (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) har sina egna administrativa koder i NIR-nummer (97, 98 prefix för utomeuropeiska avdelningar) och lokala namnkonventioner.

Alsatiansk kontext: Alsace-Moselle-regionen har historiska tyska administrativa konventioner — tyskt ursprungna namn och vissa tyska administrativa dokumentformat förekommer i franska administrativa register.

Belgisk franska: För organisationer som verkar över Frankrike och Belgien skiljer sig franska och belgiska identifierarformat (NIR vs. belgiskt nationellt registreringsnummer), och belgisk franska använder något olika namnkonventioner.

För fransk efterlevnad: NIR-detektion med mod-97 nyckelvalidering, SIREN/SIRET-detektion med Luhn-validering, franskspråkig NER med stöd för accenterade tecken (é, è, ê, ë, à, â, î, ô, û, ç, œ), och dokumenterad anonymisering som uppfyller CNIL:s 6-kategoriramverk för AI-träningsdata.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.