CNIL France: Mga Kinakailangan ng DPA sa PII Tool
Ang CNIL ng France ay ang pinaka-demanding na katawan ng data ng EU. Karamihan sa mga regulator ng EU ay sumusulat ng malawak na mga panuntunan. Higit pa ang ginagawa ng CNIL. Naglalathala ito ng tiyak na teknikal na gabay na tinatawag na recommandations. Nagtatakda ang mga ito ng eksaktong pamantayan para sa anonymization at paggamit ng data sa AI.
Madalas na binanggit ng mga abiso ng CNIL noong 2024 ang mahinang anonymization sa mga sistema ng AI. Tumanggap ang ahensya ng 16,433 na reklamo noong 2023. 43% iyon na higit kaysa noong 2022.
Humuhumo ang Gabay ng CNIL sa Patakaran ng EU
Malawak na binabanggit ng iba pang EU DPA ang mga teknikal na teksto ng CNIL. Dalawang gabay ang pinakamahalaga.
Guide pratique de l'anonymisation (2023): Sinasaklaw ng gabay na ito ang k-anonymity, l-diversity, at differential privacy. Ipinapakita nito kung paano gamitin ang bawat pamamaraan sa French na data. Binabanggit ito ng IMY ng Sweden at iba pang katawan ng EU sa kanilang sariling mga patakaran.
Gabay sa mga sistema ng AI (2024): Naglilista ang CNIL ng anim na uri ng data na dapat harapin sa AI training. Wala pang ibang EU DPA ang nagpunta nang ganito kalayo sa AI.
Mga panuntunan sa cookie: Nagtatakda ang gabay ng CNIL sa cookie ng pinakamataas na teknikal na pamantayan para sa mga tool ng pahintulot sa EU. Madalas na nina-update ito.
Ang NIR: Pinaka-Sensitibong Identifier ng France
Ang Numero d'Inscription au Repertoire (NIR) — tinatawag ding numero de securite sociale — ay isang 15-digit na French social security number.
Ang format nito ay: S AA MM DD CCC OOO K
- S — 1 digit: kasarian
- AA — taon ng kapanganakan
- MM — buwan ng kapanganakan
- DD — departamento ng kapanganakan (01-95, 2A/2B para sa Corsica, 97-99 overseas, 99 dayuhan)
- CCC — code ng munisipalidad
- OOO — pagkakasunud-sunod ng kapanganakan
- K — 2-digit na check key (97 - (NIR mod 97))
Naglalaman ang NIR ng kasarian, petsa ng kapanganakan, at lugar ng kapanganakan sa isang numero. Tinatrato ito ng CNIL bilang mataas na panganib. Kailangan nito ng parehong pag-iingat tulad ng special-category na data sa ilalim ng GDPR Article 9.
Bakit nami-miss ng mga tool ang NIR: Nabibigo ang mga generic na NLP tool sa NIR sa tatlong dahilan. Una, ang 15 digit (madalas na isinulat nang walang puwang) ay kamukha ng iba pang mahabang numero. Pangalawa, ang mga digit 7-11 ay nagtatago ng department code. Ang mga tool na lumalaktaw sa mod-97 check ay nagpapasa ng mga false positive. Pangatlo, gumagamit ang mga departamento ng Corsica ng 2A at 2B, hindi purong digit. Nabibigo ang mga tool na ginawa para sa mga pattern na numeric lamang dito.
Tatlong bagay ang kailangan ng mahusay na pag-detect ng NIR: mod-97 key check, isang geographic codebook, at mga panuntunan na Corsica-aware.
Tingnan ang aming pangkalahatang-ideya ng pagsunod sa seguridad para sa paraan ng pagsasama ng saklaw ng identifier sa isang GDPR safeguard stack.
SIREN at SIRET: Mga Business ID sa Mga Personal na File
SIREN: Isang 9-digit na French company ID na may Luhn check digit. Lumalabas ito sa lahat ng French na komersyal na dokumento.
SIRET: Isang 14-digit na numero na binuo mula sa SIREN (9 digit) kasama ang establishment code (5 digit). Pinangalanan ng SIRET ang isang site. Pinangalanan ng SIREN ang kumpanya.
Madalas na nagtatago ang mga business file ng mga numero ng SIRET sa tabi ng mga pangalan ng kawani. Tinatrato ng CNIL ang SIRET kasama ang isang pangalan bilang personal na data. Nag-ti-trigger ang pares na iyon ng mga panuntunan ng GDPR kahit walang hiwalay na field ng personal na data.
Anim na Hakbang sa Anonymization para sa AI Training
Sinasaklaw ng gabay ng CNIL sa AI noong 2024 ang anim na uri ng data. Bawat isa ay dapat harapin bago gamitin ang mga French na personal na rekord sa AI training:
- Alisin ang mga direktang identifier — Ang mga pangalan, NIR, SIREN ay dapat palitan o alisin
- Gawing pangkalahatan ang mga quasi-identifier — Maaaring pagsamahin ang edad, departamento, propesyon para ma-re-identify ang mga tao; bawasan ang kanilang katumpakan
- Magdagdag ng ingay sa mga numero — Ang mga numerong field ay nangangailangan ng calibrated na ingay para harangan ang inference
- Suriin ang k-anonymity — Bawat tao ay dapat magmukhang hindi bababa sa k-1 iba; tinuturo ng CNIL sa k >= 5
- Suriin ang l-diversity — Ang mga sensitibong katangian ay dapat mag-iba sa loob ng bawat grupo
- Magpatakbo ng re-identification risk check — Gumamit ng dokumentadong pamamaraan bago ang anumang paglalabas ng data
Ang pag-alis ng NIR at buong pangalan lamang ay hindi sapat. Natuklasan ito ng CNIL sa pagpapatupad. Ang mga quasi-identifier tulad ng ZIP code at medikal na espesyalidad ay nangangailangan din ng paggamot.
Sinasaklaw ng aming gabay sa pagsunod sa GDPR ang mga rekord na inaasahan ng French DPA audit.
Konteksto ng Wika para sa Pag-detect ng French na PII
May ilang linguistic na konteksto ang France na nakakaapekto sa pag-detect.
Standard na French ang wika ng lahat ng opisyal na dokumento. Dapat hawakan ng mga NLP model ang mga letrang may accent: e, e, e, e, a, a, i, o, u, c, oe.
Mga overseas na teritoryo (DOM-TOM): Gumagamit ang Martinique, Guadeloupe, Reunion, Guyane, at Mayotte ng mga NIR code sa hanay na 97-98. Naiiba ang mga lokal na pattern ng pangalan mula sa mainland France.
Alsace-Moselle: Lumalabas ang mga pangalang may pinagmulan sa Aleman at ilang format ng German na dokumento sa mga French na rekord. Maaaring mapalampas ng mga modelo na sinanay sa standard na French lamang ang mga ito.
Cross-border na paggamit: Gumagamit ang Belgian French ng ibang format ng ID. Ang mga tool na ginagamit sa France at Belgium ay nangangailangan ng mga panuntunan para sa bawat isa.
Ano ang Dapat Saklawin ng Iyong Tool
Ang French compliance ay nangangailangan ng apat na teknikal na kakayahan:
- NIR na may mod-97 check — Nabibigo ang pattern matching lamang. Dapat patakbuhin ng mga tool ang key check at hawakan ang mga code na 2A/2B.
- SIREN/SIRET na may Luhn check — Lumalabas ang mga business ID sa mga personal na file at lumilikha ng mga kombinasyon ng pangalan na saklaw ng GDPR.
- French NER na may buong suporta sa accent — Dapat hawakan ang mga compound name (Jean-Pierre), particles (de, du, des), at mga character na may accent.
- Dokumentadong proseso ng anim na hakbang — Ang anumang pipeline ng AI training sa French na data ay nangangailangan ng nakasulat na rekord para sa bawat aktibidad ng anonymization.