เครื่องมือ PII ภาษาอังกฤษอย่างเดียว: ช่องว่าง GDPR
GDPR ไม่มีความชอบด้านภาษา
GDPR ครอบคลุมข้อมูลส่วนบุคคลในทุกภาษา เยอรมัน ฝรั่งเศส โปแลนด์ สวีเดน — ทั้งหมดได้รับการครอบคลุมอย่างเท่าเทียม Steuer-ID ที่พลาดไปก่อให้เกิดความเสี่ยงทางกฎหมายเช่นเดียวกับ Social Security Number ที่พลาดไป กฎหมายไม่สนใจเรื่องภาษา
เครื่องมือตรวจจับ PII ส่วนใหญ่สนใจ
เครื่องมือเชิงพาณิชย์และโอเพนซอร์สชั้นนำถูกสร้างขึ้นสำหรับข้อความภาษาอังกฤษ ตัวตรวจจับเอนทิตีของพวกมันสะท้อนสิ่งนี้ ครอบคลุม Social Security Numbers ของอเมริกา ใบขับขี่ของอเมริกา และรูปแบบโทรศัพท์ NANP ได้ดี ตัวตรวจจับสำหรับ ID ประจำชาติที่ไม่ใช่ภาษาอังกฤษมีความแม่นยำน้อยกว่า ดูแลรักษาน้อยกว่า และพลาดตัวระบุจริงบ่อยกว่า
สำหรับบริษัทในรัฐสมาชิกสหภาพยุโรป สิ่งนี้สร้างช่องว่างด้านความครอบคลุม เครื่องมือบอกว่าการตรวจจับสมบูรณ์แล้ว แต่ตัวระบุที่ไม่ใช่ภาษาอังกฤษยังคงอยู่ในข้อมูล เหล่านี้มักเป็นตัวระบุที่มีความเสี่ยง GDPR สูงสุดในบางประเทศ
หน่วยงานข้อมูลเห็นสิ่งนี้ ผู้ตรวจสอบมองหามัน เครื่องมืออาจทำงานได้ดีกับบันทึกภาษาอังกฤษ แต่ถ้ามันล้มเหลวกับบันทึกภาษาเยอรมันหรือฝรั่งเศส มันก็ไม่เป็นไปตามข้อกำหนด รายงานที่สะอาดไม่เปลี่ยนแปลงสิ่งนั้น
ID ประจำชาติมีโครงสร้างที่แตกต่างกัน
ช่องว่างระหว่างเครื่องมือที่เน้นภาษาอังกฤษและเครื่องมือหลายภาษาไม่ใช่เรื่องของการเพิ่มรูปแบบ regex มากขึ้น ตัวระบุประจำชาติของสหภาพยุโรปแตกต่างกันมาก พวกมันต้องการตรรกะเฉพาะของประเทศเพื่อตรวจจับได้อย่างถูกต้อง
Steuer-Identifikationsnummer ของเยอรมัน (Steuer-ID): 11 หลัก ใช้ checksum ที่อิงจากตัวแปรสูตร Luhn regex SSN ทั่วไปจะไม่จับคู่มัน regex สำหรับตัวเลข 11 หลักใดๆ สร้าง false positive มากเกินไปในเอกสารเยอรมัน
NIR ของฝรั่งเศส (Numéro d'inscription au répertoire): 15 หลัก รูปแบบเข้ารหัสเพศ ปีเกิด เดือนเกิด และจังหวัดเกิด นอกจากนี้ยังรวมลำดับการเกิดและ control key 2 หลัก ต้องตรวจสอบ control key เพื่อการตรวจจับที่ถูกต้อง
Personnummer ของสวีเดน: 10 หลักพร้อม Luhn check digit ผู้ที่เกิดก่อนปี 1990 ใช้ตัวคั่น + แทน - นั่นเปลี่ยนรูปแบบที่ต้องตรวจจับ
PESEL ของโปแลนด์: 11 หลัก เข้ารหัสวันเกิด เพศ และ check digit ที่อิงจากผลรวมถ่วงน้ำหนัก การตรวจจับที่ถูกต้องต้องการทั้งการจับคู่รูปแบบและการตรวจสอบ checksum
เหล่านี้ไม่ใช่ตัวแปรของรูปแบบทั่วไป แต่ละรูปแบบมีความยาวต่างกัน วิธีการตรวจสอบต่างกัน และโครงการเข้ารหัสข้อมูลในตำแหน่งต่างกัน โมเดล NER ที่ฝึกด้วยภาษาอังกฤษที่เห็น NIR ของฝรั่งเศสจะไม่รู้จักมันเป็นตัวระบุประจำชาติ มันจะเพิกเฉยหรือจัดประเภทผิด
ความเสี่ยงด้านการปฏิบัติตามกฎระเบียบในทางปฏิบัติ
พิจารณาเจ้าหน้าที่ฝ่ายปฏิบัติตามกฎระเบียบที่บริษัท BPO ในยุโรป พวกเขาประมวลผลข้อมูลจากเยอรมนี ฝรั่งเศส โปแลนด์ และเนเธอร์แลนด์พร้อมกัน เครื่องมือของพวกเขารายงานว่าการทำ PII anonymization สำเร็จแล้ว
แต่ผลลัพธ์ไม่สมบูรณ์ Steuer-ID ในบันทึกเยอรมันยังคงอยู่ ตัวเลข NIR ในบันทึกฝรั่งเศสยังคงอยู่ ตัวเลข PESEL ในบันทึกโปแลนด์ยังคงอยู่ ตัวตรวจจับของเครื่องมือสำหรับรูปแบบเหล่านี้ขาดหายหรือไม่แม่นยำพอ
ต่อมา ชุดข้อมูลถูกส่งไปยังการวิเคราะห์หรือพาร์ทเนอร์การวิจัย ข้อมูลยังคงมีตัวระบุประจำชาติที่สามารถระบุตัวตนซ้ำได้ ปัญหา GDPR ไม่ปรากฏในบันทึกผลลัพธ์ของเครื่องมือ มันปรากฏเมื่อมีคำขอการเข้าถึงข้อมูลของเจ้าของข้อมูลมาถึง อาจปรากฏระหว่างการตรวจสอบของหน่วยงานข้อมูล หรืออาจปรากฏหลังจากการละเมิดข้อมูล
การวิจัยเปรียบเทียบวิธีการหลายภาษาแบบ hybrid กับเครื่องมือที่เน้นภาษาอังกฤษพบผลลัพธ์ที่ชัดเจน วิธีการ hybrid บรรลุ คะแนน F1 ตั้งแต่ 0.60 ถึง 0.83 ทั่ว locale ยุโรป เครื่องมือที่ใช้ภาษาอังกฤษอย่างเดียวได้คะแนนใกล้ศูนย์สำหรับรูปแบบ ID ประจำชาติที่ไม่ใช่ภาษาอังกฤษ
ดู ภาพรวมการปฏิบัติตาม GDPR ของเราสำหรับวิธีที่ช่องว่างเหล่านี้แมปกับภาระผูกพัน GDPR
สิ่งที่ความครอบคลุมสมบูรณ์ต้องการ
การตรวจจับ PII หลายภาษาที่แท้จริงสำหรับการปฏิบัติตาม EU GDPR ต้องการสามชั้น
โมเดล spaCy ดั้งเดิมของภาษา ให้ความเข้าใจเชิงความหมายในภาษาของข้อความ โมเดลที่ฝึกด้วยข้อความเยอรมันรู้ว่า "Müller" เป็นนามสกุลเยอรมันทั่วไป โมเดลมีอยู่สำหรับ 25 ภาษายุโรปที่มีทรัพยากรสูง
โมเดล Stanza NLP ขยายความครอบคลุมไปยังภาษาที่ไม่อยู่ใน spaCy สิ่งนี้เพิ่มการเข้าถึงสำหรับชุมชนภาษายุโรปมากขึ้น
โมเดล transformer ข้ามภาษา (XLM-RoBERTa) จัดการกรณีข้ามภาษา ชื่อในประโยคภาษาฝรั่งเศสถูกรู้จักว่าเป็นชื่อบุคคล ซึ่งทำงานได้แม้โมเดลไม่ได้ฝึกด้วยชื่อเฉพาะนั้น
Regex พร้อมการตรวจสอบเฉพาะประเทศ ครอบคลุมตัวระบุประจำชาติที่มีโครงสร้าง Steuer-ID, NIR, PESEL และ Personnummer ต่างก็ต้องการตรรกะ checksum ของตนเอง สิ่งนี้ลด false positive ลำดับตัวเลขที่ล้มเหลวกฎการตรวจสอบของประเทศจะถูกกรองออก
ช่องว่างนี้มีโครงสร้าง การเพิ่มรายการคำหรือรูปแบบ regex มากขึ้นให้การปรับปรุงเพียงเล็กน้อย การสร้างความครอบคลุม ID ของสหภาพยุโรปตั้งแต่ต้นเป็นวิธีการที่เชื่อถือได้เพียงอย่างเดียว
ตรวจสอบเครื่องมือปัจจุบันของคุณ
ถามผู้ขายของคุณเกี่ยวกับคะแนน F1 บนบันทึกภาษาเยอรมัน ฝรั่งเศส โปแลนด์ และดัตช์ "รองรับหลายภาษา" มักหมายความว่าเครื่องมือใช้การแปลก่อน นั่นไม่ใช่การสแกนดั้งเดิม การปฏิบัติตาม GDPR ต้องการการสแกนดั้งเดิม
ทดสอบด้วยตัวอย่าง ID ประจำชาติจริง สร้างชุดทดสอบสั้นๆ พร้อมตัวอย่าง 10 รายการของ ID แต่ละประเภทในการดำเนินงานของคุณ Steuer-ID, NIR, PESEL, Personnummer ตรวจสอบอัตราการตรวจจับ วิธีนี้เร็วกว่าการทดสอบ F1 เต็มรูปแบบและแสดงช่องว่างได้รวดเร็ว
ดู หน้าความปลอดภัยและการปฏิบัติตาม ของเราสำหรับวิธีที่ anonym.legal จัดการกับข้อกำหนดเหล่านี้ สำหรับคำจำกัดความประเภทเอนทิตี โปรดไปที่ การอ้างอิงเอนทิตี