CNIL Frakkland: Tæknilegar kröfur DPA um PII-verkfæri
CNIL Frakklands er krefjandasta gagnastofnun ESB. Flestar ESB-stofnanir skrifa víðar reglur. CNIL fer lengra. Hún gefur út nákvæmar tæknilegar leiðbeiningar sem kallast recommandations. Þær setja nákvæmar staðlar fyrir nafnleynd og notkun gervigreindargagna.
CNIL-ábendingar 2024 vísuðu oft til veikrar nafnleyndar í gervigreindarkerfum. Stofnunin tók við 16.433 kvörtunum árið 2023. Þetta var 43% fleiri en árið 2022.
CNIL-leiðbeiningar móta ESB-stefnu
Tæknilegar textar CNIL eru víða tilvitnuð af öðrum ESB DPA. Tvær handbækur skipta mestu máli.
Guide pratique de l'anonymisation (2023): Þessi handbók nær yfir k-nafnleynd, l-fjölbreytni og mismunandi friðhelgi. Hún sýnir hvernig á að nota hverja aðferð á frönskum gögnum. IMY Svíþjóðar og aðrar ESB-stofnanir vísa í hana í eigin reglum.
Leiðbeiningar um gervigreindakerfi (2024): CNIL tilgreinir sex gerðir gagna sem þarf að meðhöndla í gervigreindaþjálfun. Engin önnur ESB DPA hefur gengið svona langt í gervigreind.
Smáförukökureglur: CNIL-leiðbeiningar um smáförukökur setja hæsta tæknilega gildið fyrir samþykktarverkfæri í ESB. Þær eru uppfærðar oft.
NIR: Viðkvæmasta auðkenni Frakklands
Numéro d'Inscription au Répertoire (NIR) - einnig kallað numéro de sécurité sociale - er 15 stafa franskt kennitala almannatrygginga.
Snið þess er: S AA MM DD CCC OOO K
- S - 1 tala: kyn
- AA - fæðingarár
- MM - fæðingarmánuður
- DD - fæðingardepartement (01-95, 2A/2B fyrir Korsíku, 97-99 erlendum, 99 erlendum)
- CCC - sveitarfélagskóði
- OOO - fæðingarröð
- K - 2 stafa eftirlitslykill (97 - (NIR mod 97))
NIR geymir kyn, fæðingardag og fæðingarstað í einu númeri. CNIL lítur á það sem hættuleg. Það þarf sama umhirðu og sérflokka gögn samkvæmt GDPR 9. grein.
Af hverju verkfæri missa NIR: Almenn NLP-verkfæri bila á NIR af þremur ástæðum. Í fyrsta lagi líkjast 15 tölurnar (oft skrifaðar án bila) öðrum löngum tölum. Í öðru lagi geyma tölur 7-11 departement-kóða. Verkfæri sem sleppa mod-97 prófuninni sleppa fölskum jákvæðum í gegnum. Í þriðja lagi nota Korsíku-departement 2A og 2B, ekki hrein tölutákn. Verkfæri byggð fyrir talnaaðeins-mynstrum bila hér.
Góð NIR-greining þarf þrjá hluti: mod-97 lykilprófun, landfræðilegt kóðabók og Korsíku-meðvætt reglur.
Sjá yfirlit yfir öryggissamræmi fyrir hvernig auðkennisumfang passar í GDPR-verndarstafla.
SIREN og SIRET: Fyrirtækjaauðkenni í persónugagnaskrám
SIREN: 9 stafa franskt fyrirtækjaauðkenni með Luhn-eftirlitsstaf. Kemur fram í öllum frönskum viðskiptaskjölum.
SIRET: 14 stafa númer byggt á SIREN (9 stafir) plús starfstöðvarkóða (5 stafir). SIRET nefnir starfstöð. SIREN nefnir fyrirtækið.
Viðskiptaskrár geyma oft SIRET-númer við hlið nafna starfsmanna. CNIL lítur á SIRET plús nafn sem persónugögn. Þetta par virkjar GDPR-reglur jafnvel án sérstaks persónulegra gagnareits.
Sex nafnleyndarskref fyrir þjálfun gervigreindar
CNIL-leiðbeiningar 2024 um gervigreind ná yfir sex gerðir gagna. Hverja þarf að meðhöndla áður en frönsk persónugögn eru notuð í gervigreindaþjálfun:
- Fjarlægðu bein auðkenni - Nöfn, NIR, SIREN verður að skipta um eða fjarlægja
- Alhæfðu hálf-auðkenni - Aldur, departement, starfsgrein geta saman auðkennt fólk; minnkaðu nákvæmni þeirra
- Bættu við hávaða í tölur - Töluleg svæði þurfa stilltan hávaða til að loka fyrir ályktunarrétt
- Athugaðu k-nafnleynd - Sérhver einstaklingur verður að líta út eins og að minnsta kosti k-1 aðrir; CNIL bendir á k ≥ 5
- Athugaðu l-fjölbreytni - Viðkvæm eiginleikar verða að vera mismunandi innan hvers hóps
- Keyrðu endurauðkenningaráhættuprófun - Notaðu skjalfesta aðferð áður en gögn eru gefin út
Að fjarlægja NIR og fullt nafn eitt og sér er ekki nóg. CNIL hefur komist að þessu í framfylgni. Hálf-auðkenni eins og póstnúmer og læknisfræðileg sérgrein þurfa einnig meðhöndlun.
GDPR-samræmisleiðbeiningar ná yfir þær skrár sem frönsk DPA-úttekt bíður eftir.
Tungumálasamhengi fyrir franska PII-greiningu
Frakkland hefur nokkur tungumálasamhengi sem hafa áhrif á greiningu.
Staðlað franskt er tungumál allra opinberra skjala. NER-líkön verða að meðhöndla sérstafi: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Yfirsjávarlönd (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane og Mayotte nota NIR-kóða á bilinu 97-98. Staðbundin nafnamynstrar eru frábrugðin meginlandi Frakklands.
Alsace-Moselle: Þýsk-uppruna nöfn og sum þýsk skjalsnið koma fram í frönskum gögnum. Líkön þjálfuð eingöngu á stöðluðum frönsku geta missist af þessum.
Þverlanda notkun: Belgískt franskt notar annað auðkennissnið. Verkfæri notuð í Frakklandi og Belgíu þurfa reglur fyrir hvort tveggja.
Hvað verkfærið þitt verður að ná yfir
Franskt samræmi krefst fjögurra tæknilegra getu:
- NIR með mod-97 prófun - Myndagreining ein og sér dugar ekki. Verkfæri verða að keyra lykilprófunina og meðhöndla 2A/2B kóða.
- SIREN/SIRET með Luhn-prófun - Fyrirtækjaauðkenni koma fram í persónuskrám og skapa GDPR-þakta nafnsamsetningu.
- Franskt NER með fullum sérstafstudningi - Verður að meðhöndla sett nöfn (Jean-Pierre), agnir (de, du, des) og sérstafi.
- Skjalfest sex-þrepa ferli - Hvert gervigreindaþjálfunarleiðlagnir á frönskum gögnum þurfa skriflegar skrár yfir hverja nafnleysndaraðgerð.