CNIL ฝรั่งเศส: การปฏิบัติตาม GDPR ทางเทคนิค
หน่วยงานกำกับดูแลความเป็นส่วนตัวที่เข้มงวดที่สุดของฝรั่งเศส
หน่วยงานด้านข้อมูลของฝรั่งเศสคือ CNIL กำหนดกฎความเป็นส่วนตัวที่แม่นยำที่สุดใน EU หน่วยงานกำกับดูแล EU ส่วนใหญ่เขียนแนวทางที่กว้าง CNIL ไปไกลกว่านั้น เผยแพร่ข้อกำหนดทางเทคนิคที่แม่นยำที่เรียกว่า recommandations ซึ่งกำหนดความหมายของการปฏิบัติตาม GDPR อย่างแท้จริง
หน่วยงานกำกับดูแล EU อื่นๆ มักคัดลอกงานของ CNIL ตำราสำคัญได้แก่ Guide pratique de l'anonymisation ปี 2023 และแนวทาง AI ปี 2024
ตัวเลขแสดงให้เห็นว่าหน่วยงานนี้มีความกระตือรือร้น รับข้อร้องเรียน 16,433 รายการในปี 2023 มากกว่าปี 2022 ถึง 43% ออกค่าปรับ GDPR ประมาณ 150 ล้านยูโรตั้งแต่เริ่มบังคับใช้
การฝึก AI: ประเภทบันทึก 6 ประเภทที่ต้องทำความสะอาด
แนวทาง AI ปี 2024 ของ CNIL ใช้บังคับอย่างกว้างขวาง ครอบคลุมกลุ่มใดก็ตามที่ฝึก AI บนบันทึกส่วนบุคคลของฝรั่งเศส และยังใช้กับผู้ที่ให้บริการผู้ใช้ชาวฝรั่งเศสด้วยเครื่องมือ AI
หน่วยงานระบุประเภทบันทึก 6 ประเภทที่ต้องทำความสะอาดก่อนการฝึก AI:
- Identifiants directs (ID โดยตรง): ชื่อ ที่อยู่ หมายเลข ID ลบหรือแทนที่สิ่งเหล่านี้ก่อนการฝึก
- Identifiants quasi-directs (quasi-ID): กลุ่มของลักษณะที่อนุญาตให้ระบุตัวตนใหม่ ใช้การตรวจสอบ k-anonymity
- Données sensibles (ประเภทพิเศษ): บันทึกด้านสุขภาพ ไบโอเมตริก การเมือง และศาสนา แยกออกด้วยการควบคุมเพิ่มเติม
- Données comportementales (บันทึกการใช้งาน): ประวัติการเรียกดูและรูปแบบการใช้งาน รวมกลุ่มหรือปิดบังข้อมูลเหล่านี้
- Données inférées (ลักษณะที่อนุมาน): สัญญาณที่ AI ได้รับจากการใช้งาน ใช้ขีดจำกัดวัตถุประสงค์
- Données relatives aux mineurs (บันทึกของเด็ก): บันทึกใดก็ตามที่เชื่อมโยงกับบุคคลอายุต่ำกว่า 15 ปี ตรวจสอบอายุและใช้การทำความสะอาดที่เข้มแข็ง
ใช้ LLM ที่ฝึกบนเนื้อหาที่ขูดข้อมูลมา? คุณต้องมีหลักฐานเป็นลายลักษณ์อักษร แสดงให้เห็นว่าบันทึกการฝึกของคุณได้รับการตรวจสอบและทำความสะอาด ดู คู่มือการปฏิบัติตาม GDPR สำหรับรายละเอียดขอบเขต
คู่มือการทำให้ไม่ระบุตัวตน: กฎหลัก
คู่มือปี 2023 เป็นตำราที่ละเอียดที่สุดใน EU ในหัวข้อนี้ กำหนดมาตรฐานว่าอะไรถือว่าไม่ระบุตัวตนอย่างแท้จริง
เทคนิคที่ได้รับการอนุมัติ:
- k-anonymity — แต่ละบันทึกดูเหมือนกับอีกอย่างน้อย k-1 บันทึก
- l-diversity — ลักษณะที่ละเอียดอ่อนแตกต่างกันภายในแต่ละกลุ่ม
- Differential privacy — เพิ่ม noise ให้กับสถิติผลลัพธ์
- Pseudonymization — ขั้นตอนการลดความเสี่ยง ไม่ใช่การทำให้ไม่ระบุตัวตนอย่างแท้จริง
บันทึกที่จำเป็น:
สำหรับแต่ละกิจกรรมที่ใช้การทำความสะอาด CNIL คาดหวัง fiche d'anonymisation (บันทึกการทำให้ไม่ระบุตัวตน) ต้องรวมถึง:
- เทคนิคที่ใช้และการตั้งค่าหลัก (ค่า k, ค่า epsilon)
- ผลการตรวจสอบความเสี่ยงในการระบุตัวตนใหม่
- วิธีการตรวจสอบ (การทดสอบหรือการตรวจสอบภายนอก)
- บุคคลที่รับผิดชอบและวันที่ตรวจสอบ
การตรวจสอบความเสี่ยงในการระบุตัวตนใหม่:
ก่อนที่จะทำเครื่องหมายบันทึกว่าไม่ระบุตัวตน ให้ทำการตรวจสอบอย่างเป็นทางการ ถามว่า: บุคคลที่มีแรงจูงใจสามารถระบุตัวตนใหม่ได้หรือไม่? ดูว่ามีชุดข้อมูลเสริมอะไรบ้าง พิจารณาบริบทเต็มรูปแบบ
PII ภาษาฝรั่งเศส: สิ่งที่เครื่องมือของคุณต้องค้นหา
กฎของฝรั่งเศสกำหนดให้ต้องครอบคลุม PII ภาษาฝรั่งเศส เครื่องมือของคุณต้องตรวจจับประเภท ID เฉพาะของฝรั่งเศส
ID หลักที่ต้องครอบคลุม:
- NIR: 15 หลัก (13 ฐาน + คีย์ 2 หลัก) นี่คือหมายเลขประกันสังคมของฝรั่งเศส
- หมายเลขบัตร Carte vitale: ID บัตรประกันสุขภาพ
- SIRET/SIREN: ID ธุรกิจที่พบในไฟล์ส่วนตัว
- Numéro d'ordre professionnel: หมายเลขทะเบียนสำหรับแพทย์ ทนายความ และนักบัญชี
- CNI (Carte nationale d'identité): หมายเลขบัตรประจำตัวประชาชนแห่งชาติของฝรั่งเศส
โมเดล NER ภาษาฝรั่งเศสต้องจัดการกับรูปแบบชื่อฝรั่งเศส ซึ่งรวมถึงชื่อประสม (Jean-Pierre) อนุภาค (de, du, des) และนามสกุลที่มีขีดกลาง ดู คู่มือการตรวจจับ PII หลายภาษา เพื่อดูวิธีครอบคลุมทุก locale
การบังคับใช้: สิ่งที่ถูกปรับ
ค่าปรับของหน่วยงานดำเนินตามรูปแบบที่ชัดเจน มุ่งเป้าไปที่การควบคุมทางเทคนิคที่ขาดหายไป กระบวนการที่ไม่ดีเพียงอย่างเดียวแทบไม่ใช่ประเด็นหลัก
Clearview AI — ค่าปรับ 20 ล้านยูโร (2022): บริษัทประมวลผลบันทึกไบโอเมตริกของชาวฝรั่งเศสโดยไม่มีพื้นฐานทางกฎหมาย บันทึกถูกขูดจากแหล่งเว็บสาธารณะ คดีนี้ยืนยัน: การขูดข้อมูลเว็บจำนวนมากสำหรับการฝึก AI ต้องการพื้นฐานทางกฎหมายที่ชัดเจน
TikTok — เริ่มสอบสวนปี 2024: มุ่งเน้นไปที่ระบบที่อาจอนุมานประเภทที่ละเอียดอ่อนจากสัญญาณการใช้งาน วิธีนี้กลายเป็นมาตรฐานอ้างอิง EU สำหรับการตรวจสอบ AI
การตรวจสอบ Generative AI (2024–2025): หน่วยงานตรวจสอบผู้ขาย LLM ในฝรั่งเศส มุ่งเน้นไปที่แหล่งที่มาของเนื้อหาการฝึก ผู้ขายที่ไม่มีบันทึกที่เหมาะสมต้องเพิ่มการควบคุม
สี่ขั้นตอนสู่การปฏิบัติตาม CNIL
จัดการบันทึกส่วนบุคคลของฝรั่งเศส? คุณต้องมีสี่สิ่งนี้ในสถานที่
1. บันทึกการทำให้ไม่ระบุตัวตนสำหรับแต่ละกิจกรรม
แต่ละกิจกรรมที่ใช้การทำความสะอาดต้องมีบันทึกของตัวเอง ระบุเทคนิค การตั้งค่า ผลความเสี่ยง และวันที่ตรวจสอบ
2. บันทึกการประมวลผลล่วงหน้าสำหรับ AI
บันทึกว่าคุณใช้เครื่องมือตรวจจับ PII อะไร ระบุประเภท entity ที่พบ บันทึกสิ่งที่ถูกลบหรือปิดบัง เก็บบันทึกเหล่านี้พร้อมสำหรับการตรวจสอบ
3. ความครอบคลุม PII ภาษาฝรั่งเศส
ตรวจสอบว่าเครื่องมือของคุณค้นหาหมายเลข NIR, carte vitale และ CNI ทดสอบโมเดล NER ภาษาฝรั่งเศสของคุณกับชื่อฝรั่งเศสจริง ระบุช่องว่าง บันทึกการควบคุมที่คุณกำหนดเพื่อแก้ไขปัญหา
4. บันทึกแหล่งที่มาสำหรับเนื้อหาการฝึก
สำหรับเนื้อหาที่ขูดมา: บันทึกการตรวจสอบการทำความสะอาดแหล่งที่มา สำหรับบันทึกผู้ใช้: บันทึกกระบวนการทำความสะอาดผู้ใช้ ภาพรวมการปฏิบัติตามความปลอดภัย ของเราแสดงให้เห็นว่าสิ่งนี้เหมาะกับโครงสร้างการป้องกันที่กว้างขึ้นอย่างไร
กลุ่มที่มีบันทึกที่ดีผ่านการตรวจสอบได้เร็ว สร้างไฟล์ของคุณตอนนี้ อย่ารอให้มีการตรวจสอบก่อนถึงจะเริ่ม