CNIL Frankrijk: DPA PII-tooltechnische vereisten
Frankrijks CNIL is de meest veeleisende gegevensbeschermingsinstantie van de EU. De meeste EU-toezichthouders schrijven brede regels. De CNIL gaat verder en publiceert precieze technische richtsnoeren — recommandations — die exacte normen stellen voor anonimisering en AI-gegevensgebruik.
CNIL-aanwijzingen in 2024 citeerden vaak zwakke anonimisering in AI-systemen. De instantie ontving in 2023 16.433 klachten — 43% meer dan in 2022.
CNIL-richtsnoeren vormen EU-beleid
CNIL's technische teksten worden breed geciteerd door andere EU-DPA's. Twee gidsen tellen het meest.
Guide pratique de l'anonymisation (2023): Deze gids behandelt k-anonimiteit, l-diversiteit en differentiële privacy. Ze toont hoe elke methode op Franse gegevens wordt toegepast. Zweden's IMY en andere EU-instanties citeren hem in hun eigen regels.
AI-systeemrichtsnoeren (2024): CNIL somt zes gegevenstypen op die moeten worden afgehandeld vóór gebruik van Franse persoonsgegevens in AI-training. Geen andere EU-DPA is zo ver gegaan op het gebied van AI.
Cookieregels: CNIL's cookierichtsnoeren stellen de hoogste technische lat voor consenttools in de EU en worden regelmatig bijgewerkt.
Het NIR: Frankrijk's meest gevoelige identificator
Het Numéro d'Inscription au Répertoire (NIR) — ook numéro de sécurité sociale — is een 15-cijferig Frans socialezekerheids nummer.
Het formaat is: S AA MM DD CCC OOO K
- S — 1 cijfer: geslacht
- AA — geboortejaar
- MM — geboortemaand
- DD — geboortedepartement (01–95, 2A/2B voor Corsica, 97–99 overzeese gebieden, 99 buitenland)
- CCC — gemeentecode
- OOO — geboortevolgorde
- K — 2-cijferige controlesleutel (97 − (NIR mod 97))
Het NIR bevat geslacht, geboortedatum en geboorteplaats in één nummer. CNIL behandelt het als hoog-risico en vereist dezelfde zorg als bijzondere categoriegegevens onder AVG Artikel 9.
Waarom tools NIR missen: Generieke NLP-tools falen bij NIR om drie redenen. Ten eerste zien de 15 cijfers (vaak zonder tussenruimtes geschreven) eruit als andere lange nummers. Ten tweede bevatten cijfers 7–11 een departementcode; tools die de mod-97-controle overslaan, laten vals-positieven door. Ten derde gebruiken Corsicaanse departementen 2A en 2B, niet puur numeriek — tools gebouwd voor alleen-numerieke patronen falen hier.
Goede NIR-detectie vereist drie dingen: mod-97-sleutelcontrole, een geografisch codeboek en Corsica-bewuste regels.
Zie ons beveiligings-en nalevingsoverzicht voor hoe identificatordekking past in een AVG-beveiligingsstack.
SIREN en SIRET: bedrijfs-ID's in persoonlijke bestanden
SIREN: Een 9-cijferig Frans bedrijfs-ID met een Luhn-controlecijfer. Verschijnt in alle Franse commerciële documenten.
SIRET: Een 14-cijferig nummer opgebouwd uit SIREN (9 cijfers) plus een vestigingscode (5 cijfers). SIRET identificeert een locatie; SIREN het bedrijf.
Bedrijfsbestanden bevatten vaak SIRET-nummers naast personeelsnamen. CNIL behandelt SIRET plus een naam als persoonsgegevens. Dit paar activeert AVG-regels zelfs zonder apart persoonlijk gegevensveld.
Zes anonimiseringsstappen voor AI-training
CNIL's 2024 AI-richtsnoeren behandelen zes gegevenstypen die elk moeten worden afgehandeld vóór gebruik van Franse persoonsgegevens in AI-training:
- Verwijder directe identificatoren — Namen, NIR, SIREN moeten worden vervangen of verwijderd
- Generaliseer quasi-identificatoren — Leeftijd, departement en beroep samen kunnen mensen heridentificeren; verminder hun precisie
- Voeg ruis toe aan getallen — Numerieke velden vereisen gekalibreerde ruis om inferentie te blokkeren
- Controleer k-anonimiteit — Elke persoon moet lijken op minimaal k-1 anderen; CNIL wijst op k ≥ 5
- Controleer l-diversiteit — Gevoelige kenmerken moeten variëren binnen elke groep
- Voer een heridentificatierisicocontrole uit — Gebruik een gedocumenteerde methode vóór elke gegevensvrijgave
Alleen NIR en volledige naam verwijderen is niet voldoende. CNIL heeft dit in handhaving gevonden. Quasi-identificatoren zoals postcode en medische specialisatie vereisen ook behandeling.
Onze AVG-nalevingsgids behandelt de registers die Franse DPA-audits verwachten te zien.
Taalcontext voor Franse PII-detectie
Frankrijk heeft verschillende taalcontexten die detectie beïnvloeden.
Standaard Frans is de taal van alle officiële documenten. NER-modellen moeten geaccentueerde letters verwerken: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Overzeese gebiedsdelen (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane en Mayotte gebruiken NIR-codes in de reeksen 97–98. Lokale naampatronen wijken af van het Franse vasteland.
Elzas-Moselle: Duits-afkomstige namen en sommige Duitse documentformaten verschijnen in Franse dossiers. Op standaard Frans getrainde modellen kunnen deze missen.
Grensoverschrijdend gebruik: Belgisch Frans hanteert een ander ID-formaat. Tools die in Frankrijk en België worden gebruikt, vereisen regels voor elk land.
Wat uw tool moet dekken
Franse naleving vereist vier technische mogelijkheden:
- NIR met mod-97-controle — Patroonherkenning alleen faalt. Tools moeten de sleutelcontrole uitvoeren en 2A/2B-codes verwerken.
- SIREN/SIRET met Luhn-controle — Bedrijfs-ID's verschijnen in persoonlijke bestanden en creëren AVG-gedekte naamcombinaties.
- Franse NER met volledige accentondersteuning — Moet samengestelde namen (Jean-Pierre), partikels (de, du, des) en geaccentueerde tekens verwerken.
- Gedocumenteerd zessteppen-proces — Elke AI-trainingspipeline op Franse gegevens vereist een schriftelijk register voor elke anonimiseringsactiviteit.