CNIL France: Teknikal na Compliance sa GDPR
Ang Pinaka-Mahigpit na Regulator ng Privacy ng France
Ang katawan ng data ng France ay ang CNIL. Nagtatakda ito ng pinaka-eksaktong mga panuntunan sa privacy ng EU. Karamihan sa mga regulator ng EU ay sumusulat ng malawak na gabay. Higit pa ang ginagawa ng CNIL. Naglalathala ito ng tiyak na mga teknikal na spec na tinatawag na recommandations. Tinutukoy ng mga ito kung ano ang hitsura ng tunay na GDPR compliance.
Madalas na kinokopya ng ibang mga regulator ng EU ang gawa ng CNIL. Kasama sa mga pangunahing teksto ang 2023 Guide pratique de l'anonymisation at ang 2024 na gabay sa AI.
Ipinakikita ng mga numero na aktibo ang ahensya. Humawak ito ng 16,433 na reklamo noong 2023. Iyon ay 43% na higit pa kaysa noong 2022. Naglabas ito ng humigit-kumulang 150 milyong euro sa mga multa ng GDPR mula nang magsimula ang enforcement.
AI Training: Anim na Uri ng Rekord na Dapat Linisin
Malawak ang saklaw ng 2024 na gabay sa AI ng CNIL. Sumasaklaw ito sa anumang grupo na nagsu-train ng AI sa mga personal na rekord ng France. Nalalapat din ito sa mga naglilingkod sa mga user ng France na may mga tool sa AI.
Ininilista ng ahensya ang anim na uri ng rekord na kailangang linisin bago ang AI training:
- Identifiants directs (mga direktang ID): Mga pangalan, address, numero ng ID. Alisin o palitan ang mga ito bago mag-training.
- Identifiants quasi-directs (quasi-ID): Mga grupo ng katangian na nagbibigay-daan sa muling pagkilala. Mag-apply ng mga tseke ng k-anonymity.
- Donnees sensibles (mga espesyal na uri): Mga rekord ng kalusugan, biometric, political, at pananampalataya. Ihiwalay na may mga karagdagang kontrol.
- Donnees comportementales (mga rekord ng paggamit): Kasaysayan ng pag-browse at mga pattern ng paggamit. I-aggregate o i-mask ang mga ito.
- Donnees inferees (mga inferred na katangian): Mga signal na nagmula sa AI mula sa paggamit. Mag-apply ng mga limitasyon sa layunin.
- Donnees relatives aux mineurs (mga rekord ng bata): Anumang rekord na naka-link sa mga taong wala pang 15 taong gulang. Magpatakbo ng mga tseke ng edad at gumamit ng malakas na paglilinis.
Gumagamit ng mga LLM na na-train sa scraped na nilalaman? Kailangan mo ng nakasulat na patunay. Ipakita na ang iyong mga rekord ng training ay nasuri at nalinis. Tingnan ang aming gabay sa GDPR compliance para sa mga detalye ng saklaw.
Ang Gabay sa Anonymization: Mga Pangunahing Panuntunan
Ang gabay ng 2023 ay ang pinaka-detalyadong teksto ng EU sa paksang ito. Nagtatakda ito ng bar para sa kung ano ang tunay na anonymous.
Mga aprubadong teknik:
- k-anonymity — ang bawat rekord ay parang kahit k-1 pang iba
- l-diversity — nag-iiba ang mga sensitibong katangian sa loob ng bawat grupo
- Differential privacy — ingay na idinagdag sa mga output na istatistika
- Pseudonymization — isang hakbang ng pagbabawas ng panganib, hindi tunay na anonymization
Mga kinakailangang rekord:
Para sa bawat aktibidad na gumagamit ng paglilinis, inaasahan ng CNIL ang isang fiche d'anonymisation (rekord ng anonymization). Dapat itong isama:
- Ang ginamit na teknik at ang mga pangunahing setting nito (k value, epsilon value)
- Ang resulta ng tseke ng panganib ng muling pagkilala
- Ang paraan ng pagpapatunay (pagsubok o panlabas na pagsusuri)
- Ang taong responsable at ang petsa ng pagsusuri
Tseke ng panganib ng muling pagkilala:
Bago markahan ang mga rekord bilang anonymous, magpatakbo ng pormal na tseke. Itanong: maaari bang muling makilala ng isang motivated na tao ito? Tingnan kung anong mga auxiliary na dataset ang umiiral. Isaalang-alang ang buong konteksto.
French PII: Ano ang Dapat Mahanap ng Iyong Mga Tool
Nangangailangan ang mga panuntunan ng France ng coverage ng PII sa wikang Pranses. Ang iyong mga tool ay dapat makita ang mga uri ng ID na tiyak sa France.
Mga pangunahing ID na dapat saklawin:
- NIR: 15 digit (13 base + 2-digit na key). Ito ang French Social Security Number.
- Numero ng carte vitale: ID ng health insurance card.
- SIRET/SIREN: Mga business ID na makikita sa mga personal na file.
- Numero d'ordre professionnel: Mga numero ng rehistro para sa mga doktor, abogado, at accountant.
- CNI (Carte nationale d'identite): Numero ng French national ID card.
Ang mga French NER model ay dapat humawak ng mga pattern ng pangalang Pranses. Kasama rito ang mga compound na pangalan (Jean-Pierre), mga particle (de, du, des), at mga hyphenated na apelyido. Tingnan ang aming multilingual na gabay sa PII detection para sa kung paano saklawin ang lahat ng locale.
Enforcement: Ano ang Naiilawan ng Multa
Sumusunod ang mga multa ng ahensya sa isang malinaw na pattern. Tina-target ang mga nawawalang teknikal na kontrol. Ang mahinang proseso lamang ay bihirang ang pangunahing isyu.
Clearview AI — 20M euro na multa (2022): Pinroseso ng kumpanya ang mga biometric na rekord ng mga Pranses nang walang legal na batayan. Ang mga rekord ay na-scrape mula sa mga pampublikong mapagkukunan sa web. Kinumpirma ng kaso: ang bulk web-scraping para sa AI training ay nangangailangan ng isang explicit na legal na batayan.
TikTok — inilunsad ang imbestigasyon noong 2024: Nakatuon sa mga sistema na maaaring mag-infer ng mga sensitibong uri mula sa mga signal ng paggamit. Ang pamamaraang ito ay ngayon ang sanggunian ng EU para sa mga AI audit.
Generative AI review (2024-2025): Sinuri ng ahensya ang mga vendor ng LLM sa France. Nakatuon ito sa provenance ng nilalaman ng training. Ang mga vendor na walang wastong rekord ay kailangang magdagdag ng mga kontrol.
Apat na Hakbang para sa CNIL Compliance
Humahawak ng mga personal na rekord ng France? Kailangan mo ng apat na bagay na nakalagay.
1. Isang rekord ng anonymization para sa bawat aktibidad
Bawat aktibidad na gumagamit ng paglilinis ay nangangailangan ng sarili nitong rekord. Itala ang teknik, ang mga setting nito, isang resulta ng panganib, at isang petsa ng pagsusuri.
2. Mga pre-processing log para sa AI
I-log kung aling tool sa PII detection ang ginamit mo. Itala kung anong mga uri ng entity ang natagpuan nito. Itala kung ano ang inalis o na-mask. Panatilihing handa ang mga log na ito para sa mga audit.
3. Coverage ng PII sa wikang Pranses
Suriin na natutuklasan ng iyong tool ang mga numero ng NIR, carte vitale, at CNI. Subukan ang iyong French NER model sa mga tunay na pangalang Pranses. Itala ang anumang puwang. Itala ang mga kontrol na inilagay mo upang harapin ang mga ito.
4. Mga rekord ng provenance para sa nilalaman ng training
Para sa scraped na nilalaman: idokumento ang tseke ng paglilinis ng pinagmulan. Para sa mga rekord ng user: idokumento ang proseso ng paglilinis ng user. Ang aming pangkalahatang-ideya ng security compliance ay nagpapakita kung paano akma ito sa mas malawak na stack ng pananggalang.
Mabilis na dumadaan sa mga audit ang mga grupo na may magandang rekord. Bumuo ng iyong file ngayon. Huwag maghintay sa isang inspeksyon bago magsimula.