CNIL ฝรั่งเศส: ข้อกำหนดเครื่องมือ PII ของ DPA
CNIL ของฝรั่งเศสเป็นหน่วยงานข้อมูลที่เรียกร้องมากที่สุดใน EU หน่วยงานกำกับดูแล EU ส่วนใหญ่เขียนกฎกว้างๆ แต่ CNIL ไปไกลกว่านั้น โดยเผยแพร่แนวทางทางเทคนิคที่แม่นยำที่เรียกว่า recommandations ซึ่งกำหนดมาตรฐานที่แน่นอนสำหรับการทำให้นิรนามและการใช้ข้อมูล AI
ประกาศของ CNIL ในปี 2024 มักอ้างถึงการทำให้นิรนามที่อ่อนแอในระบบ AI หน่วยงานรับเรื่องร้องเรียน 16,433 รายในปี 2023 เพิ่มขึ้น 43% จากปี 2022
แนวทาง CNIL กำหนดนโยบาย EU
ข้อความทางเทคนิคของ CNIL ถูกอ้างอิงอย่างกว้างขวางโดย DPA อื่นๆ ของ EU มีสองคู่มือที่สำคัญที่สุด
Guide pratique de l'anonymisation (2023): คู่มือนี้ครอบคลุม k-anonymity, l-diversity และ differential privacy โดยแสดงวิธีใช้แต่ละวิธีกับข้อมูลฝรั่งเศส IMY ของสวีเดนและหน่วยงาน EU อื่นๆ อ้างอิงในกฎของตนเอง
แนวทางระบบ AI (2024): CNIL แสดงรายการข้อมูลหกประเภทที่ต้องจัดการในการฝึก AI ไม่มี DPA อื่นใน EU ที่ก้าวไกลเช่นนี้ในด้าน AI
กฎ cookie: แนวทาง cookie ของ CNIL กำหนดมาตรฐานทางเทคนิคสูงสุดสำหรับเครื่องมือความยินยอมใน EU และได้รับการอัปเดตบ่อยครั้ง
NIR: ตัวระบุที่ละเอียดอ่อนที่สุดของฝรั่งเศส
Numéro d'Inscription au Répertoire (NIR) — หรือที่เรียกว่า numéro de sécurité sociale — คือหมายเลขประกันสังคมฝรั่งเศส 15 หลัก
รูปแบบคือ: S AA MM DD CCC OOO K
- S — 1 หลัก: เพศ
- AA — ปีเกิด
- MM — เดือนเกิด
- DD — จังหวัดเกิด (01–95, 2A/2B สำหรับ Corsica, 97–99 โพ้นทะเล, 99 ต่างชาติ)
- CCC — รหัสเทศบาล
- OOO — ลำดับเกิด
- K — เลขตรวจสอบ 2 หลัก (97 − (NIR mod 97))
NIR มีเพศ วันเกิด และสถานที่เกิดอยู่ในหมายเลขเดียว CNIL ถือว่าเป็นความเสี่ยงสูง ต้องได้รับการดูแลเช่นเดียวกับข้อมูลหมวดพิเศษภายใต้ GDPR Article 9
ทำไมเครื่องมือจึงพลาด NIR: เครื่องมือ NLP ทั่วไปล้มเหลวกับ NIR ด้วยสามเหตุผล ประการแรก 15 หลัก (มักเขียนโดยไม่มีช่องว่าง) ดูเหมือนตัวเลขยาวอื่นๆ ประการที่สอง หลักที่ 7–11 มีรหัสจังหวัด เครื่องมือที่ข้ามการตรวจสอบ mod-97 ปล่อย false positive ผ่าน ประการที่สาม จังหวัด Corsica ใช้ 2A และ 2B ไม่ใช่หลักล้วน เครื่องมือที่สร้างสำหรับรูปแบบตัวเลขล้วนล้มเหลวที่นี่
การตรวจจับ NIR ที่ดีต้องการสามสิ่ง: การตรวจสอบเลข key mod-97, codebook ทางภูมิศาสตร์ และกฎที่รองรับ Corsica
ดูที่ security compliance overview ของเราเพื่อดูว่าการครอบคลุมตัวระบุเหมาะสมกับ stack มาตรการป้องกัน GDPR อย่างไร
SIREN และ SIRET: หมายเลขธุรกิจในไฟล์ส่วนบุคคล
SIREN: หมายเลขบริษัทฝรั่งเศส 9 หลักพร้อมเลขตรวจสอบ Luhn ปรากฏในเอกสารทางการค้าฝรั่งเศสทั้งหมด
SIRET: หมายเลข 14 หลักที่สร้างจาก SIREN (9 หลัก) บวกรหัสสาขา (5 หลัก) SIRET ระบุสาขา SIREN ระบุบริษัท
ไฟล์ธุรกิจมักมีหมายเลข SIRET ถัดจากชื่อพนักงาน CNIL ถือว่า SIRET บวกชื่อเป็นข้อมูลส่วนบุคคล คู่นั้นเปิดใช้กฎ GDPR แม้ไม่มีฟิลด์ข้อมูลส่วนบุคคลแยกต่างหาก
ขั้นตอนการทำให้นิรนามหกขั้นตอนสำหรับการฝึก AI
แนวทาง AI ปี 2024 ของ CNIL ครอบคลุมข้อมูลหกประเภท แต่ละประเภทต้องจัดการก่อนใช้ข้อมูลส่วนบุคคลฝรั่งเศสในการฝึก AI:
- ลบตัวระบุโดยตรง — ชื่อ, NIR, SIREN ต้องถูกแทนที่หรือลบ
- ลดความแม่นยำของ quasi-identifier — อายุ, จังหวัด, อาชีพสามารถรวมกันเพื่อระบุตัวคนได้ ลดความแม่นยำของพวกเขา
- เพิ่ม noise ให้ตัวเลข — ฟิลด์ตัวเลขต้องการ noise ที่ปรับเทียบเพื่อป้องกันการอนุมาน
- ตรวจสอบ k-anonymity — แต่ละคนต้องดูเหมือนกับอย่างน้อย k-1 คนอื่น CNIL ชี้ไปที่ k ≥ 5
- ตรวจสอบ l-diversity — แอตทริบิวต์ที่ละเอียดอ่อนต้องแตกต่างกันภายในแต่ละกลุ่ม
- ทำการตรวจสอบความเสี่ยงในการระบุตัวตนซ้ำ — ใช้วิธีที่มีเอกสารก่อนเผยแพร่ข้อมูลใดๆ
การลบ NIR และชื่อเต็มเพียงอย่างเดียวไม่เพียงพอ CNIL พบเรื่องนี้ในการบังคับใช้ Quasi-identifier เช่น รหัสไปรษณีย์และความเชี่ยวชาญทางการแพทย์ก็ต้องได้รับการจัดการด้วย
GDPR compliance guide ของเราครอบคลุมบันทึกที่การตรวจสอบของ French DPA คาดหวัง
บริบทภาษาสำหรับการตรวจจับ PII ภาษาฝรั่งเศส
ฝรั่งเศสมีบริบททางภาษาหลายอย่างที่ส่งผลต่อการตรวจจับ
ภาษาฝรั่งเศสมาตรฐาน เป็นภาษาของเอกสารทางการทั้งหมด โมเดล NER ต้องจัดการตัวอักษรที่มีเครื่องหมาย: é, è, ê, ë, à, â, î, ô, û, ç, œ
ดินแดนโพ้นทะเล (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane และ Mayotte ใช้รหัส NIR ในช่วง 97–98 รูปแบบชื่อท้องถิ่นต่างจากฝรั่งเศสแผ่นดินใหญ่
Alsace-Moselle: ชื่อที่มีต้นกำเนิดภาษาเยอรมันและรูปแบบเอกสารเยอรมันบางส่วนปรากฏในระเบียนฝรั่งเศส โมเดลที่ฝึกเฉพาะภาษาฝรั่งเศสมาตรฐานอาจพลาดสิ่งเหล่านี้
การใช้ข้ามพรมแดน: ภาษาฝรั่งเศสของเบลเยียมใช้รูปแบบหมายเลขประจำตัวที่แตกต่าง เครื่องมือที่ใช้ในฝรั่งเศสและเบลเยียมต้องมีกฎสำหรับแต่ละประเทศ
สิ่งที่เครื่องมือของคุณต้องครอบคลุม
การปฏิบัติตามกฎหมายฝรั่งเศสต้องการความสามารถทางเทคนิคสี่ประการ:
- NIR พร้อมการตรวจสอบ mod-97 — การจับคู่รูปแบบเพียงอย่างเดียวล้มเหลว เครื่องมือต้องเรียกใช้การตรวจสอบ key และจัดการรหัส 2A/2B
- SIREN/SIRET พร้อมการตรวจสอบ Luhn — หมายเลขธุรกิจปรากฏในไฟล์ส่วนบุคคลและสร้างการรวมชื่อที่ GDPR ครอบคลุม
- NER ภาษาฝรั่งเศสพร้อมการรองรับเครื่องหมายเต็มรูปแบบ — ต้องจัดการชื่อผสม (Jean-Pierre), บุพบท (de, du, des) และตัวอักษรที่มีเครื่องหมาย
- กระบวนการหกขั้นตอนที่มีเอกสาร — ไปป์ไลน์การฝึก AI ใดๆ บนข้อมูลฝรั่งเศสต้องมีบันทึกเป็นลายลักษณ์อักษรสำหรับกิจกรรมการทำให้นิรนามแต่ละอย่าง