ANSPDCP โรมาเนีย: การตรวจจับ CNP และการตรวจสอบ GDPR
อัปเดตสำหรับปี 2026
หน่วยงานข้อมูลของโรมาเนียคือ ANSPDCP การประเมินในปี 2024 พบว่า 78% ของเครื่องมือ PII ล้มเหลวในการตรวจจับ Cod Numeric Personal (CNP) ส่วนใหญ่ข้ามขั้นตอนการตรวจสอบ checksum ช่องว่างนั้นสร้างความเสี่ยงในการปฏิบัติตามที่แท้จริง โรมาเนียประมวลผลข้อมูลสหภาพยุโรปสำหรับลูกค้าตะวันตกจำนวนมาก การเปิดรับมีวงกว้าง
ID ประจำชาติที่อุดมด้วยข้อมูลที่สุดของโรมาเนีย
CNP คือหมายเลขประจำตัวประชาชน 13 หลัก แต่ละกลุ่มหลักมีข้อมูลส่วนบุคคล:
- หลักที่ 1: รหัสเพศและศตวรรษ ชายเกิดปี 1900–1999 = 1 หญิงเกิดปี 1900–1999 = 2 ชายเกิดปี 2000+ = 5 หญิงเกิดปี 2000+ = 6 ชายผู้อยู่อาศัยต่างชาติ = 7 หญิงผู้อยู่อาศัยต่างชาติ = 8 ผู้อยู่อาศัยอื่นๆ = 9
- หลักที่ 2–3: สองหลักสุดท้ายของปีเกิด
- หลักที่ 4–5: เดือนเกิด (01–12)
- หลักที่ 6–7: วันเกิด (01–31)
- หลักที่ 8–9: รหัสจังหวัด ครอบคลุม 41 จังหวัดและหกเขตของบูคาเรสต์ (รหัส 01–52)
- หลักที่ 10–12: ลำดับการเกิดในวันและจังหวัดนั้น
- หลักที่ 13: หลักตรวจสอบ
หลักที่ 1 เพียงอย่างเดียวเปิดเผยเพศทางชีววิทยา ภายใต้ GDPR Article 9 ทำให้หมายเลขนี้เป็นรายการข้อมูลหมวดพิเศษ ต้องการการคุ้มครองที่แข็งแกร่งกว่าข้อมูลส่วนบุคคลธรรมดา
วิธีการทำงานของหลักตรวจสอบ: นำ 12 หลักแรก คูณแต่ละหลักด้วยน้ำหนัก (2, 7, 9, 1, 4, 6, 3, 5, 8, 2, 7, 9) บวกผลลัพธ์ หารด้วย 11 และหาเศษ เศษ 10 ให้หลักตรวจสอบ 1 เศษ 11 หมายความว่ารหัสไม่ถูกต้อง เศษอื่นๆ คือหลักตรวจสอบ
เครื่องมือที่ข้ามการทดสอบนี้มีสองโหมดความล้มเหลว ประการแรก สตริง 13 หลักใดก็ตามถูกตั้งค่าสถานะเป็นการจับคู่ (false positives) ประการที่สอง หมายเลขที่เสียหายผ่านการตรวจสอบรูปแบบแต่มีข้อมูลที่ไม่ดี ข้อมูลนั้นต้องการการตรวจสอบและถูกพลาด (false negatives)
ปัญหา NER ในเอกสารภาษาโรมาเนีย
การค้นหาหมายเลขประจำตัวเป็นเพียงส่วนหนึ่งของงาน ข้อความภาษาโรมาเนียเพิ่มอุปสรรคในการตรวจจับมากขึ้น
เครื่องหมายกำกับเสียง: ภาษาโรมาเนียใช้ ș, ț, ă, â และ î เครื่องมือที่ฝึกด้วยภาษาอื่นมักพลาดชื่อที่มีตัวอักษรเหล่านี้ เอกสารเก่าในการเข้ารหัส Latin-2 ก่อให้เกิดความล้มเหลวเพิ่มเติม
รูปแบบที่อยู่: ประเภทถนนใช้รูปแบบย่อ — Str., Bd., Al., Cal. ชื่อเมืองและตำบลตามกฎท้องถิ่น ตัวแยกที่สร้างสำหรับที่อยู่ฝรั่งเศสหรือเยอรมันทำงานได้ไม่ดีที่นี่
การผันคำของชื่อ: ชื่อเปลี่ยนรูปแบบตามกรณีไวยากรณ์ในภาษาโรมาเนีย ชื่อบุคคลเดียวกันดูแตกต่างในส่วนต่างๆ ของประโยค โมเดล NER ต้องจัดการสิ่งนี้เพื่อเชื่อมโยงชื่อข้ามเอกสาร
ดู คู่มือการตรวจจับ PII ของ APAC ของเราเพื่อดูว่าช่องว่างภาษาส่งผลต่อการตรวจจับข้ามสคริปต์ที่ไม่ใช่ตะวันตกอย่างไร
คดีของ ANSPDCP พัฒนาอย่างไร
คดีของ ANSPDCP แสดงสามรูปแบบ
คดีละเมิด BPO: ไฟล์ที่แชร์มีหมายเลข ID พนักงานและข้อมูลลูกค้าสหภาพยุโรปโดยไม่มีการเข้ารหัส บันทึกที่ไม่ดีหมายความว่าบริษัทไม่สามารถบอกได้ว่าบันทึกใดถูกเข้าถึง ซึ่งยืดการสอบสวนและเพิ่มค่าปรับ
การเปิดเผยทางสุขภาพ: ไฟล์ผู้ป่วย — ID ประจำชาติ ID บัตรสุขภาพ และการวินิจฉัย — ถึงคนผิด เครื่องมือ PII ไม่รองรับรูปแบบนี้ ข้อมูลออกไปโดยไม่มีการปกปิด
ความล้มเหลวในการโอนข้อมูลข้ามพรมแดน: บริษัทรับจ้างส่งบันทึกที่เชื่อมโยงกับหมายเลขประจำตัวไปยังฝ่ายที่ไม่ใช่ EEA ไม่มี Transfer Impact Assessment ไม่มี Standard Contractual Clauses สถานะ Article 9 ของข้อมูลเปลี่ยนช่องว่างตามปกติให้กลายเป็นการละเมิดที่ร้ายแรงกว่า
สามมาตรการควบคุมสำหรับการปฏิบัติตาม ANSPDCP
สามอย่างนี้ประกอบเป็นพื้นฐานทางเทคนิคขั้นต่ำ:
- การตรวจจับ CNP ด้วยการตรวจสอบ modulo-11 — การจับคู่รูปแบบเพียงอย่างเดียวไม่เพียงพอ
- NER ที่รับรู้เครื่องหมายกำกับเสียง — ครอบคลุม ș, ț, ă, â และ î ในทั้งแหล่ง UTF-8 และ Latin-2
- การตรวจจับบัตร ID — บัตรประจำชาติปรากฏควบคู่กับ CNP ในเอกสารหลายประเภท
สำหรับมุมมองที่กว้างขึ้นเกี่ยวกับวิธีที่ ID ประจำชาติสร้างความเสี่ยง GDPR ดู คู่มือการตรวจจับ EU national tax ID ของเรา