CNIL Frankrike: DPA PII-verktoyskrav
Frankrakes CNIL er EUs mest krevende personvernorgan. De fleste europeiske tilsynsmyndigheter skriver brede regler. CNIL gar lenger. De publiserer presise tekniske veiledninger kalt recommandations. Disse fastsetter eksakte standarder for anonymisering og bruk av KI-data.
CNIL-paklegg i 2024 siterte ofte svak anonymisering i KI-systemer. Myndigheten mottok 16 433 klager i 2023. Det var 43 % mer enn i 2022.
CNIL-veiledning former EU-politikk
CNILs tekniske tekster siteres hyppig av andre europeiske tilsynsmyndigheter. To veiledninger er sarlig viktige.
Guide pratique de l'anonymisation (2023): Denne veiledningen dekker k-anonymitet, l-diversitet og differensielt personvern. Den viser hvordan man anvender hver metode pa franske data. Sveriges IMY og andre EU-organer siterer den i sine egne regler.
KI-systemveiledning (2024): CNIL lister opp seks datatyper som ma handteres i KI-opplaring. Ingen annen EU-tilsynsmyndighet har gatt sa langt i KI-sporsmal.
Informasjonskapselregler: CNILs veiledning for informasjonskapsler setter den hoyeste tekniske standarden for samtykkelosninger i EU. Den oppdateres jevnlig.
NIR: Frankrikes mest sensitive identifikator
Numero d'Inscription au Repertoire (NIR) — ogsa kalt numero de securite sociale — er et 15-sifret fransk personnummer.
Formatet er: S AA MM DD CCC OOO K
- S — 1 siffer: kjonn
- AA — fodselsargang
- MM — fodselsmaned
- DD — fodselsdepartement (01-95, 2A/2B for Korsika, 97-99 utenlandske territorier, 99 utenlandsk)
- CCC — kommunekode
- OOO — fodselrekkefolge
- K — 2-sifret kontrollnokkel (97 - (NIR mod 97))
NIR inneholder kjonn, fodselsdato og fodested i ett tall. CNIL behandler det som hoyrisikodata. Det krever samme oppmerksomhet som sarlige kategorier data under GDPR artikkel 9.
Hvorfor verktoy gar glipp av NIR: Generiske NLP-verktoy svikter pa NIR av tre grunner. For det forste: 15 siffer (ofte skrevet uten mellomrom) ser ut som andre lange tall. For det andre: siffer 7-11 inneholder en departementskode. Verktoy som hopper over mod-97-sjekken, slipper falske positiver igjennom. For det tredje: Korsikanske departementer bruker 2A og 2B, ikke rene siffer. Verktoy bygget for kun numeriske monstre svikter her.
God NIR-deteksjon krever tre ting: mod-97-nokkelsjekk, en geografisk kodebook og Korsika-bevisste regler.
Se var oversikt over sikkerhet og samsvar for hvordan identifikatorderkning passer inn i en GDPR-sikkerhetsstakk.
SIREN og SIRET: Virksomhets-IDer i personlige filer
SIREN: Et 9-sifret fransk virksomhets-ID med et Luhn-kontrollsiffer. Det forekommer i alle franske forretningsdokumenter.
SIRET: Et 14-sifret tall bygget av SIREN (9 sifre) pluss en etableringskode (5 sifre). SIRET identifiserer et sted. SIREN identifiserer selskapet.
Forretningsfiler inneholder ofte SIRET-numre ved siden av ansattnavn. CNIL behandler SIRET kombinert med et navn som personopplysninger. Dette paret utlvser GDPR-regler selv uten et separat personopplysningsfelt.
Seks anonymiseringstrinn for KI-opplaring
CNILs KI-veiledning fra 2024 dekker seks datatyper. Hver ma handteres for franske personopplysninger kan brukes i KI-opplaring:
- Fjern direkte identifikatorer — Navn, NIR, SIREN ma erstattes eller fjernes
- Generaliser kvasiidentifikatorer — Alder, departement og yrke kan kombineres til gjenidentifisering; reduser prehesjonen deres
- Legg stoy til numeriske felt — Tallfelt trenger kalibrert stoy for a blokkere inferens
- Sjekk k-anonymitet — Hver person ma likne minst k-1 andre; CNIL peker pa k >= 5
- Sjekk l-diversitet — Sensitive attributter ma variere innenfor hver gruppe
- Kjor en gjenidentifiseringsrisikosjekk — Bruk en dokumentert metode for enhver datautgivelse
A fjerne NIR og fullt navn alene er ikke nok. CNIL har slatt fast dette i handhevelsessaker. Kvasiidentifikatorer som postnummer og medisinsk spesialitet trenger ogsa behandling.
Var GDPR-samsvarsguide dekker dokumentene franske DPA-revisjoner forventer a se.
Spraklig kontekst for fransk PII-deteksjon
Frankrike har flere spraklige kontekster som pavirker deteksjon.
Standard fransk er spraket i alle offisielle dokumenter. NER-modeller ma handtere aksenttegn: e, e, e, e, a, a, i, o, u, c, oe.
Oversjoiske territorier (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane og Mayotte bruker NIR-koder i omradet 97-98. Lokale navnemonster avviker fra fastlands-Frankrike.
Alsace-Moselle: Tyskspraklige navn og noen tyske dokumentformater forekommer i franske dokumenter. Modeller trent bare pa standard fransk kan ga glipp av disse.
Grensekryssende bruk: Belgisk fransk bruker et annet ID-format. Verktoy brukt i Frankrike og Belgia trenger regler for begge.
Hva verktyet ditt ma dekke
Franskt samsvar krever fire tekniske evner:
- NIR med mod-97-sjekk — Monstermatch alene svikter. Verktoy ma kjore nokkelsjekken og handtere 2A/2B-koder.
- SIREN/SIRET med Luhn-sjekk — Virksomhets-IDer forekommer i personlige filer og skaper GDPR-dekkede navnekombinasjoner.
- Fransk NER med full aksentstotte — Ma handtere sammensatte navn (Jean-Pierre), partikler (de, du, des) og aksenttegn.
- Dokumentert sekstrinns prosess — Enhver KI-opplreringspipeline pa franske data trenger et skriftlig notat for hver anonymiseringsaktivitet.