GDPR ไม่มีลำดับความชอบด้านภาษา
พระราชกฤษฎีกาการป้องกันข้อมูล (GDPR) ใช้บังคับเท่าเทียมกันกับข้อมูลส่วนบุคคลในภาษาเยอรมัน ฝรั่งเศส โปแลนด์ สวีเดน สเปน อิตาลี และภาษาอื่นๆ ทั้งหมดที่ประมวลผลโดยองค์กรที่อยู่ภายใต้พระราชกฤษฎีกา ตัวระบุที่ขาดหายไปในข้อมูลลูกค้าเยอรมันสร้างความเสี่ยง GDPR เท่ากับตัวระบุที่ขาดหายไปในข้อมูลลูกค้าภาษาอังกฤษ GDPR ไม่แยกแยะโดยภาษา
แต่เครื่องมือตรวจจับ PII ส่วนใหญ่จะ
เครื่องมือตรวจจับ PII เชิงพาณิชย์และโอเพนซอร์สที่โดดเด่นถูกสร้างและปรับเทียบไว้บนข้อความภาษาอังกฤษเป็นหลัก ตัวรู้จำประเภท entity ของพวกเขาสะท้อนถึงสิ่งนี้: หมายเลขประกันสังคมสหรัฐอเมริกา ใบขับขี่สหรัฐอเมริกา รูปแบบหนังสือเดินทางสหรัฐอเมริกา และตัวระบุสากลทั่วไป (ที่อยู่อีเมล เบอร์โทรศัพท์ในรูปแบบ NANP หมายเลขบัตรเครดิต) ตัวรู้จำสำหรับตัวระบุระดับชาติที่ไม่ใช่ภาษาอังกฤษ—เมื่อมีอยู่—มักแม่นยำน้อยกว่า บำรุงรักษาน้อยกว่า และมีแนวโน้มที่จะให้ผลลบเท็จจำนวนมาก
สำหรับองค์กรที่ดำเนินการข้ามรัฐสมาชิก EU สิ่งนี้สร้างช่องว่างการปฏิบัติตามข้อบังคับ: เครื่องมือรายงานว่าพบ PII และเอาออกแล้ว แต่ตัวระบุที่ไม่ใช่ภาษาอังกฤษซึ่งแสดงถึงความเสี่ยง GDPR ที่มากที่สุดในเขตอำนาจศาลบางแห่งยังคงอยู่ในข้อมูล
ความแตกต่างทางโครงสร้างระหว่างตัวระบุระดับชาติ
ช่องว่างระหว่างเครื่องมือเน้น English-centric และเครื่องมือที่พูดหลายภาษาอย่างแท้จริงไม่ใช่เรื่องของการเพิ่มรูปแบบ regex มากขึ้น รูปแบบตัวระบุระดับชาติทั่วรัฐสมาชิก EU มีความแตกต่างทางโครงสร้างในลักษณะที่ต้องใช้ความรู้เฉพาะเขตอำนาจศาลในการตรวจจับได้อย่างถูกต้อง