PII หลายภาษา: เหตุใดเครื่องมือภาษาเดียวจึงพลาด
อัปเดตสำหรับปี 2026
เอกสารข้ามขอบเขตภาษา
สัญญาจ้างงานของบริษัทเภสัชกรรมสวิสไม่ได้เขียนในภาษาเดียว สวิตเซอร์แลนด์มีภาษาทางการสี่ภาษา บริษัทสวิสมักผสมภาษาเยอรมันในเนื้อหาหลัก ภาษาฝรั่งเศสในข้อกำหนดทางกฎหมาย และภาษาอังกฤษในส่วนที่เป็นสากล ซึ่งอาจเกิดขึ้นในย่อหน้าเดียวกัน
รายงานการประชุมคณะกรรมการของเบลเยียมมีเนื้อหาภาษาดัตช์ ส่วนทางการภาษาฝรั่งเศส และสรุปภาษาอังกฤษ ข้อตกลงข้อมูลระดับโลกอาจมีข้อกำหนดทางเทคนิคภาษาอังกฤษและข้อกำหนดสิทธิ์ภาษาเยอรมัน
นี่ไม่ใช่เรื่องแปลก แต่เป็นเรื่องปกติสำหรับบริษัทใน DACH และ EU เครื่องมือ PII ที่รองรับเพียงภาษาเดียวล้มเหลวกับไฟล์เหล่านี้
ช่องว่างอัตราการตรวจจับพลาด 45%
เครื่องมือ NER ภาษาเดียวมีอัตราการตรวจจับ PII พลาดสูงขึ้น 45% กับไฟล์หลายภาษา เมื่อเทียบกับไฟล์ภาษาเดียวล้วนๆ
สาเหตุหลักมาจากการออกแบบ โมเดลที่ฝึกด้วยข้อความภาษาเยอรมันรู้รูปแบบชื่อท้องถิ่นและกฎที่อยู่ แต่เมื่อพบส่วนภาษาฝรั่งเศส โมเดลอยู่นอกขอบเขตการฝึก ชื่อและ ID ในส่วนนั้นได้รับการตรวจจับที่ไม่ดี โมเดลไม่ได้อ่อนแอ แต่สร้างขึ้นสำหรับภาษาที่แตกต่างกัน
EDPB 2024 พบว่า 72% ของบริษัท EU ประมวลผลไฟล์ในสามภาษาขึ้นไปพร้อมกัน Gartner 2024 พบว่า ไฟล์ HR หลายภาษามี PII ต่อหน้ามากกว่า 67% เมื่อเทียบกับไฟล์ภาษาเดียว PII ที่มากขึ้นบวกกับการตรวจจับพลาดมากขึ้นทำให้ช่องว่างยิ่งรุนแรงขึ้น
ดูที่ คู่มือ GDPR สำหรับกฎที่บังคับใช้
จุดที่เกิดข้อผิดพลาดบ่อยที่สุด
ความล้มเหลวไม่ได้กระจายเท่าๆ กันทั่วทั้งไฟล์ PII ที่ขอบเขตระหว่างส่วนมีความเสี่ยงสูงสุด
ลองพิจารณาข้อความนี้: โครงสร้างประโยคภาษาเยอรมัน ชื่อพนักงานภาษาฝรั่งเศส และวันเกิดภาษาฝรั่งเศส ทั้งหมดอยู่ในบรรทัดเดียว โมเดล NER เห็นชื่อภาษาฝรั่งเศสในตำแหน่งที่คาดว่าจะเป็นชื่อท้องถิ่น อาจไม่ตั้งค่าสถานะ โมเดลที่ฝึกด้วยภาษาฝรั่งเศสเห็นคำบริบทภาษาเยอรมันและไม่สามารถอ่านโครงสร้างได้
ไฟล์ HR ทำให้ปัญหานี้มีค่าใช้จ่ายสูง Gartner พบว่ามี PII ต่อหน้ามากกว่า 67% ในไฟล์ HR หลายภาษา ข้อผิดพลาดที่ขอบเขตส่วนเจ็บปวดมากที่สุดในประเภทไฟล์ที่มีข้อมูลส่วนบุคคลมากที่สุด
โมเดลข้ามภาษาแก้ปัญหานี้
XLM-RoBERTa ฝึกบนข้อความจาก 100 ภาษาพร้อมกัน ไม่ใช้โมเดลใหม่ต่อภาษา โมเดลเรียนรู้ว่าการตรวจจับชื่อทำงานในลักษณะเดียวกันในบริบทภาษาต่างๆ ชื่อและบริบทมีโครงสร้างเดียวกันในภาษาเยอรมัน ฝรั่งเศส และอังกฤษ
สำหรับไฟล์หลายภาษา โมเดลไม่เปลี่ยนที่ขอบเขตส่วน แต่อ่านข้อความทั้งหมดเป็นบล็อกเดียว และใช้กฎเอนทิตีเดียวกันในทุกจุด
การปรับแต่งบนภาษาเยอรมันและฝรั่งเศสเพิ่มความแม่นยำสำหรับแต่ละภาษา แต่ฐานข้ามภาษาจะตรวจจับ PII ที่ขอบเขตที่โมเดลภาษาเดียวล้มเหลว
สำหรับบริษัทใน DACH ที่มีไฟล์ข้ามส่วนภาษา นี่คือประโยชน์ที่แท้จริง เอนทิตีที่โมเดลภาษาเดียวพลาดที่ขอบเขตจะถูกพบโดยโมเดลข้ามภาษา
ดูที่ หน้ามาตรการป้องกัน สำหรับวิธีที่ anonym.legal จัดการกับเรื่องนี้
ขั้นตอนที่ควรทำตอนนี้
ตรวจสอบขอบเขตของเครื่องมือของคุณ ขอคะแนน recall จากผู้จำหน่ายตามภาษา "รองรับหลายภาษา" อาจหมายความว่าข้อความผ่านการแปลด้วยเครื่องก่อน ซึ่งไม่ใช่การสแกนดั้งเดิม
จัดทำแผนที่ไฟล์ตามภาษา บริษัทใน DACH ที่มีเนื้อหาเยอรมัน 60% ฝรั่งเศส 30% และอังกฤษ 10% มีช่องว่างที่แตกต่างกัน
ทดสอบด้วยตัวอย่างที่ขอบเขตส่วน สร้างชุดทดสอบที่มีตัวอย่างข้อกำหนดหลายภาษา 10 รายการ ตรวจสอบ recall ทั่วทั้งไฟล์ ไม่ใช่แค่ส่วนภาษาหลัก
ตรวจสอบ DPIA ของคุณ DPIA ที่สร้างบนบันทึกภาษาเดียวอาจไม่สมบูรณ์ แก้ไขก่อนที่การตรวจสอบจะพบ
สำหรับรายละเอียด API และการครอบคลุมเอนทิตี ดูที่ หน้าราคา
anonym.legal ใช้ XLM-RoBERTa บวกโมเดล spaCy และ Stanza ดั้งเดิม ค้นหา PII ข้ามขอบเขตส่วนในภาษาเยอรมัน ฝรั่งเศส อังกฤษ และอีก 45 ภาษา