CNIL Frankrig: DPA-krav til PII-værktøjer
Frankrigs CNIL er EU's mest krævende dataorgan. De fleste EU-regulatorer skriver brede regler. CNIL går videre. Myndigheden offentliggør præcis teknisk vejledning kaldet recommandations. Disse fastsætter eksakte standarder for anonymisering og AI-databrug.
CNIL-påbud i 2024 nævnte ofte svag anonymisering i AI-systemer. Myndigheden modtog 16.433 klager i 2023. Det var 43 % mere end i 2022.
CNIL-vejledning former EU-politik
CNIL's tekniske tekster citeres bredt af andre EU-DPA'er. To vejledninger er vigtigst.
Guide pratique de l'anonymisation (2023): Denne vejledning dækker k-anonymitet, l-diversitet og differential privacy. Den viser, hvordan hver metode anvendes på franske data. Sveriges IMY og andre EU-organer citerer den i deres egne regler.
AI-systemvejledning (2024): CNIL opregner seks datatyper, der skal håndteres i AI-træning. Ingen anden EU-DPA er gået så langt med AI.
Cookie-regler: CNIL's cookie-vejledning fastsætter den højeste tekniske standard for samtykkeredskaber i EU. Den opdateres ofte.
NIR: Frankrigs mest følsomme identifikator
Numéro d'Inscription au Répertoire (NIR) — også kaldet numéro de sécurité sociale — er et 15-cifret fransk personnummer.
Formatet er: S AA MM DD CCC OOO K
- S — 1 ciffer: køn
- AA — fødselsår
- MM — fødselsmåned
- DD — fødselsafdeling (01–95, 2A/2B for Korsika, 97–99 oversøiske, 99 udland)
- CCC — kommunekode
- OOO — fødselsorden
- K — 2-cifret kontrolnøgle (97 − (NIR mod 97))
NIR indeholder køn, fødselsdato og fødested i ét nummer. CNIL behandler det som højrisiko. Det kræver samme omhu som særlige kategorier af data under GDPR artikel 9.
Hvorfor værktøjer misser NIR: Generiske NLP-værktøjer fejler på NIR af tre grunde. Først ligner de 15 cifre (ofte skrevet uden mellemrum) andre lange tal. Dernæst indeholder cifre 7–11 en afdelingskode. Værktøjer, der springer mod-97-kontrollen over, lader falske positiver igennem. For det tredje bruger korsikanske afdelinger 2A og 2B, ikke rene cifre. Værktøjer bygget til kun numeriske mønstre fejler her.
God NIR-detektion kræver tre ting: mod-97 nøglekontrol, en geografisk kodebog og Korsika-bevidste regler.
Se vores sikkerheds-compliance-oversigt for, hvordan identifikatordækning indgår i en GDPR-sikkerhedsstabel.
SIREN og SIRET: Virksomheds-ID'er i personlige filer
SIREN: Et 9-cifret fransk virksomheds-ID med et Luhn-kontrolciffer. Det fremgår af alle franske handelsdokumenter.
SIRET: Et 14-cifret nummer opbygget af SIREN (9 cifre) plus en etableringskode (5 cifre). SIRET identificerer et sted. SIREN identificerer virksomheden.
Virksomhedsfiler indeholder ofte SIRET-numre ved siden af medarbejdernavne. CNIL behandler SIRET plus et navn som personoplysninger. Det par udløser GDPR-regler, selv uden et separat personoplysningsfelt.
Seks anonymiseringstrin til AI-træning
CNIL's AI-vejledning fra 2024 dækker seks datatyper. Hver skal håndteres, inden franske personoplysninger bruges i AI-træning:
- Fjern direkte identifikatorer — Navne, NIR, SIREN skal erstattes eller fjernes
- Generaliser kvasiidentifikatorer — Alder, afdeling, erhverv kan kombineres til genbrug af identitet; reducer deres præcision
- Tilføj støj til tal — Numeriske felter kræver kalibreret støj for at blokere inferens
- Tjek k-anonymitet — Hver person skal ligne mindst k-1 andre; CNIL peger på k ≥ 5
- Tjek l-diversitet — Følsomme attributter skal variere inden for hver gruppe
- Kør en risikocheck for genbrug af identitet — Brug en dokumenteret metode inden enhver dataudgivelse
Fjernelse af NIR og fulde navn alene er ikke nok. CNIL har fastslået dette ved håndhævelse. Kvasiidentifikatorer som postnummer og medicinsk speciale kræver også behandling.
Vores GDPR-compliance-vejledning dækker de registre, franske DPA-revisioner forventer at se.
Sprogkontekst for fransk PII-detektion
Frankrig har flere sproglige sammenhænge, der påvirker detektion.
Standard-fransk er sproget i alle officielle dokumenter. NER-modeller skal håndtere accenterede bogstaver: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Oversøiske territorier (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane og Mayotte bruger NIR-koder i intervallet 97–98. Lokale navnemønstre adskiller sig fra det franske fastland.
Alsace-Moselle: Tysksprogede navne og visse tyske dokumentformater forekommer i franske registre. Modeller udelukkende trænet på standard-fransk kan overse disse.
Grænseoverskridende brug: Belgisk fransk bruger et andet ID-format. Værktøjer, der bruges i Frankrig og Belgien, kræver regler for hvert land.
Hvad dit værktøj skal dække
Fransk compliance kræver fire tekniske evner:
- NIR med mod-97-kontrol — Mønstermatching alene fejler. Værktøjer skal køre nøglekontrollen og håndtere 2A/2B-koder.
- SIREN/SIRET med Luhn-kontrol — Virksomheds-ID'er forekommer i personlige filer og skaber GDPR-dækkede navnekombinationer.
- Fransk NER med fuld accentunderstøttelse — Skal håndtere sammensatte navne (Jean-Pierre), partikler (de, du, des) og accenterede tegn.
- Dokumenteret seks-trins-proces — Enhver AI-træningspipeline med franske data kræver en skriftlig registrering af hver anonymiseringsaktivitet.