CNIL Frankrijk: DPA PII-tooltechnische vereisten

Frankrijks CNIL is de meest veeleisende gegevensbeschermingsinstantie van de EU. De meeste EU-toezichthouders schrijven brede regels. De CNIL gaat verder en publiceert precieze technische richtsnoeren — recommandations — die exacte normen stellen voor anonimisering en AI-gegevensgebruik.

CNIL-aanwijzingen in 2024 citeerden vaak zwakke anonimisering in AI-systemen. De instantie ontving in 2023 16.433 klachten — 43% meer dan in 2022.

CNIL-richtsnoeren vormen EU-beleid

CNIL's technische teksten worden breed geciteerd door andere EU-DPA's. Twee gidsen tellen het meest.

Guide pratique de l'anonymisation (2023): Deze gids behandelt k-anonimiteit, l-diversiteit en differentiële privacy. Ze toont hoe elke methode op Franse gegevens wordt toegepast. Zweden's IMY en andere EU-instanties citeren hem in hun eigen regels.

AI-systeemrichtsnoeren (2024): CNIL somt zes gegevenstypen op die moeten worden afgehandeld vóór gebruik van Franse persoonsgegevens in AI-training. Geen andere EU-DPA is zo ver gegaan op het gebied van AI.

Cookieregels: CNIL's cookierichtsnoeren stellen de hoogste technische lat voor consenttools in de EU en worden regelmatig bijgewerkt.

Het NIR: Frankrijk's meest gevoelige identificator

Het Numéro d'Inscription au Répertoire (NIR) — ook numéro de sécurité sociale — is een 15-cijferig Frans socialezekerheids nummer.

Het formaat is: S AA MM DD CCC OOO K

S — 1 cijfer: geslacht
AA — geboortejaar
MM — geboortemaand
DD — geboortedepartement (01–95, 2A/2B voor Corsica, 97–99 overzeese gebieden, 99 buitenland)
CCC — gemeentecode
OOO — geboortevolgorde
K — 2-cijferige controlesleutel (97 − (NIR mod 97))

Het NIR bevat geslacht, geboortedatum en geboorteplaats in één nummer. CNIL behandelt het als hoog-risico en vereist dezelfde zorg als bijzondere categoriegegevens onder AVG Artikel 9.

Waarom tools NIR missen: Generieke NLP-tools falen bij NIR om drie redenen. Ten eerste zien de 15 cijfers (vaak zonder tussenruimtes geschreven) eruit als andere lange nummers. Ten tweede bevatten cijfers 7–11 een departementcode; tools die de mod-97-controle overslaan, laten vals-positieven door. Ten derde gebruiken Corsicaanse departementen 2A en 2B, niet puur numeriek — tools gebouwd voor alleen-numerieke patronen falen hier.

Goede NIR-detectie vereist drie dingen: mod-97-sleutelcontrole, een geografisch codeboek en Corsica-bewuste regels.

Zie ons beveiligings-en nalevingsoverzicht voor hoe identificatordekking past in een AVG-beveiligingsstack.

SIREN en SIRET: bedrijfs-ID's in persoonlijke bestanden

SIREN: Een 9-cijferig Frans bedrijfs-ID met een Luhn-controlecijfer. Verschijnt in alle Franse commerciële documenten.

SIRET: Een 14-cijferig nummer opgebouwd uit SIREN (9 cijfers) plus een vestigingscode (5 cijfers). SIRET identificeert een locatie; SIREN het bedrijf.

Bedrijfsbestanden bevatten vaak SIRET-nummers naast personeelsnamen. CNIL behandelt SIRET plus een naam als persoonsgegevens. Dit paar activeert AVG-regels zelfs zonder apart persoonlijk gegevensveld.

Zes anonimiseringsstappen voor AI-training

CNIL's 2024 AI-richtsnoeren behandelen zes gegevenstypen die elk moeten worden afgehandeld vóór gebruik van Franse persoonsgegevens in AI-training:

Verwijder directe identificatoren — Namen, NIR, SIREN moeten worden vervangen of verwijderd
Generaliseer quasi-identificatoren — Leeftijd, departement en beroep samen kunnen mensen heridentificeren; verminder hun precisie
Voeg ruis toe aan getallen — Numerieke velden vereisen gekalibreerde ruis om inferentie te blokkeren
Controleer k-anonimiteit — Elke persoon moet lijken op minimaal k-1 anderen; CNIL wijst op k ≥ 5
Controleer l-diversiteit — Gevoelige kenmerken moeten variëren binnen elke groep
Voer een heridentificatierisicocontrole uit — Gebruik een gedocumenteerde methode vóór elke gegevensvrijgave

Alleen NIR en volledige naam verwijderen is niet voldoende. CNIL heeft dit in handhaving gevonden. Quasi-identificatoren zoals postcode en medische specialisatie vereisen ook behandeling.

Onze AVG-nalevingsgids behandelt de registers die Franse DPA-audits verwachten te zien.

Taalcontext voor Franse PII-detectie

Frankrijk heeft verschillende taalcontexten die detectie beïnvloeden.

Standaard Frans is de taal van alle officiële documenten. NER-modellen moeten geaccentueerde letters verwerken: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Overzeese gebiedsdelen (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane en Mayotte gebruiken NIR-codes in de reeksen 97–98. Lokale naampatronen wijken af van het Franse vasteland.

Elzas-Moselle: Duits-afkomstige namen en sommige Duitse documentformaten verschijnen in Franse dossiers. Op standaard Frans getrainde modellen kunnen deze missen.

Grensoverschrijdend gebruik: Belgisch Frans hanteert een ander ID-formaat. Tools die in Frankrijk en België worden gebruikt, vereisen regels voor elk land.

Wat uw tool moet dekken

Franse naleving vereist vier technische mogelijkheden:

NIR met mod-97-controle — Patroonherkenning alleen faalt. Tools moeten de sleutelcontrole uitvoeren en 2A/2B-codes verwerken.
SIREN/SIRET met Luhn-controle — Bedrijfs-ID's verschijnen in persoonlijke bestanden en creëren AVG-gedekte naamcombinaties.
Franse NER met volledige accentondersteuning — Moet samengestelde namen (Jean-Pierre), partikels (de, du, des) en geaccentueerde tekens verwerken.
Gedocumenteerd zessteppen-proces — Elke AI-trainingspipeline op Franse gegevens vereist een schriftelijk register voor elke anonimiseringsactiviteit.

Bronnen

Gerelateerde Artikelen

GDPR & Naleving

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

Start Gratis Proefperiode Bekijk Kenmerken

CNIL Frankrijk: DPA PII-tooltechnische vereisten