My Number ของญี่ปุ่น: APPI และการตรวจสอบ Verhoeff
คณะกรรมการคุ้มครองข้อมูลส่วนบุคคลของญี่ปุ่น (PPC) ออกคำวินิจฉัยการบังคับใช้กฎหมาย 45 ฉบับในปี 2024 และยังเผยแพร่คำแนะนำด้านความเป็นส่วนตัว AI ฉบับแรกของญี่ปุ่นอีกด้วย การศึกษาของ PPC พบว่า 63% ของเครื่องมือ NLP ทั่วไปไม่สามารถตรวจจับ My Number (マイナンバー) ในไฟล์ภาษาญี่ปุ่นได้ หากทีมของคุณจัดการข้อมูลของผู้อยู่อาศัยในญี่ปุ่น ช่องว่างนี้หมายถึงความเสี่ยงต่อ APPI โดยตรง
My Number คืออะไร
ญี่ปุ่นมอบตัวเลขประจำตัว 12 หลักที่ไม่ซ้ำกันให้กับผู้อยู่อาศัยทุกคน นี่คือ My Number ซึ่งเป็นส่วนหนึ่งของระบบหมายเลขบุคคล (マイナンバー制度) ครอบคลุมด้านภาษี เงินบำนาญ ประกันสุขภาพ และการตอบสนองต่อภัยพิบัติ ตัวระบุนี้เป็นข้อมูลที่ละเอียดอ่อนภายใต้ APPI และคุณต้องมีเหตุผลทางกฎหมายในการเก็บรวบรวมหรือแบ่งปัน
ปัญหาการตรวจสอบ Verhoeff
My Number ใช้อัลกอริทึม Verhoeff สำหรับเลขตรวจสอบ Verhoeff เป็นวิธีทางคณิตศาสตร์ที่จับข้อผิดพลาดหลักเดียวทั้งหมด รวมถึงข้อผิดพลาดจากการสลับหลักที่อยู่ติดกัน ต้องใช้ตารางค้นหาสามตารางในการทำงาน ไม่สามารถคำนวณด้วยมือได้ ต้องใช้โค้ด
เรื่องนี้สำคัญด้วยเหตุผลสองประการ ประการแรก รูปแบบ 12 หลักของญี่ปุ่นมีลักษณะคล้ายกับรหัสอื่นๆ หลายแบบ เช่น หมายเลขอ้างอิงในใบแจ้งหนี้ ID เอกสาร และสตริงวันที่ หากไม่มีการตรวจสอบ Verhoeff เครื่องมือจะระบุค่าที่ผิดพลาด ประการที่สอง เครื่องมือส่วนใหญ่ไม่ใช้ Verhoeff แต่ใช้การตรวจสอบ modulo-10 หรือ modulo-11 ที่ง่ายกว่า ซึ่งใช้ไม่ได้ที่นี่
การศึกษาของ PPC พบว่า 63% ของเครื่องมือข้ามการตรวจสอบหรือใช้วิธีที่ง่ายกว่า ทำให้เกิดปัญหาสองอย่างพร้อมกัน: ทั้งผลบวกปลอมและผลลบปลอม
อัลกอริทึม Luhn ที่ใช้กับบัตรเครดิตนั้นง่ายกว่า My Number ไม่ใช้ Luhn เครื่องมือที่สร้างขึ้นสำหรับ Luhn จะใช้ไม่ได้ที่นี่
สามสคริปต์ ชื่อเดียว
ข้อความภาษาญี่ปุ่นใช้ระบบการเขียนสามแบบพร้อมกัน เครื่องมือต้องรองรับทั้งสามแบบ
ฮิระงะนะ (ひらがな): ใช้สำหรับไวยากรณ์และคำพื้นเมือง มี 46 อักขระพื้นฐาน
คะตะกะนะ (カタカナ): ใช้สำหรับคำต่างประเทศและชื่อ มี 46 อักขระพื้นฐาน ชื่อต่างประเทศในญี่ปุ่นปรากฏในสคริปต์นี้
คันจิ (漢字): สัญลักษณ์สำหรับคำนามและชื่อ ประมาณ 2,000 ตัวที่ใช้ทั่วไป
ชื่อบุคคลหนึ่งคนสามารถปรากฏได้สี่รูปแบบ: คันจิ (田中太郎) ฮิระงะนะ (たなかたろう) คะตะกะนะ (タナカ タロウ) และโรมาจิ (Tanaka Taro) เครื่องมือต้องจับคู่ทั้งสี่รูปแบบ หากพลาดหนึ่ง ก็จะพลาดบันทึกส่วนใหญ่ของบุคคลนั้น
ID ญี่ปุ่นอื่นๆ ที่ต้องตรวจจับ
ใบอนุญาตขับขี่ (運転免許証番号): 12 หลัก สองหลักแรกแสดงจังหวัด โตเกียวคือ 10 โอซาก้าคือ 62 ซึ่งช่วยให้เครื่องมือตรวจสอบว่าค่านั้นถูกต้องสำหรับภูมิภาคนั้นๆ
หนังสือเดินทาง (旅券番号): ตัวอักษรสองตัวบวกตัวเลขเจ็ดหลัก รูปแบบ ICAO ญี่ปุ่นใช้คู่อักษรเฉพาะ
บัตรประกันสุขภาพ (健康保険証記号番号): สัญลักษณ์บวกตัวเลข รูปแบบขึ้นอยู่กับผู้ให้บริการประกัน ประกันสุขภาพแห่งชาติ (国民健康保険) และประกันที่บริหารโดยสมาคม (協会けんぽ) ใช้รูปแบบที่แตกต่างกัน
บัตรพำนัก (在留カード番号): สำหรับผู้อยู่อาศัยต่างชาติ ตัวอักษรสองตัว ตัวเลขแปดหลัก ตัวอักษรสองตัว กระทรวงยุติธรรมเป็นผู้ออกบัตรนี้
กฎการทำข้อมูลนิรนามของ APPI
APPI มีมาตรฐานข้อมูลนิรนามที่เข้มงวดเรียกว่าข้อมูลนิรนาม (匿名加工情報) ซึ่งเข้มงวดกว่า GDPR ในประเด็นสำคัญหนึ่ง นั่นคือการทำนิรนามต้อง ตรวจสอบได้โดยบุคคลที่สาม และ ย้อนกลับไม่ได้ทางเทคนิค
เพื่อให้เป็นไปตามข้อกำหนด องค์กรต้อง:
- ลบตัวระบุทั้งหมดโดยตรง รวมถึง My Number
- จัดการกับการรวมกันของตัวระบุกึ่งทางอ้อมทั้งหมด
- ใช้ k-anonymity หรือวิธีที่คล้ายกัน
- เผยแพร่คำอธิบายทั่วไปของขั้นตอนที่ดำเนินการ
- ไม่พยายามระบุตัวตนของข้อมูลอีกครั้งเด็ดขาด
คำแนะนำ AI ปี 2024 ของ PPC เพิ่มกฎเฉพาะ หากคุณฝึก AI ด้วยข้อมูลนิรนาม คุณไม่สามารถใช้โมเดลนั้นเพื่อระบุตัวบุคคลอีกครั้งได้ นี่คือการห้ามโดยตรงต่อการโจมตี model inversion กับชุดข้อมูลฝึกอบรม APPI
เพื่อให้เป็นไปตามมาตรฐาน PPC คุณต้องมีสี่สิ่ง ประการแรก การตรวจสอบ Verhoeff สำหรับการตรวจจับ My Number ประการที่สอง NER ภาษาญี่ปุ่นโดยใช้ ja_core_news พร้อม tokenization ที่เหมาะสม ประการที่สาม การจับคู่ชื่อในคันจิ คะนะ และโรมาจิ ประการที่สี่ การตรวจสอบรหัสจังหวัดสำหรับใบอนุญาตขับขี่
อินเดียใช้ Aadhaar ซึ่งต้องการการตรวจสอบ Verhoeff เช่นกัน คู่มือการปฏิบัติตามกฎหมาย India DPDPA ทางเทคนิค ครอบคลุมรายละเอียดนั้น สำหรับการตรวจจับตัวระบุหลายประเทศ ดู การตรวจจับ ID ภาษีระดับชาติของสหภาพยุโรปภายใต้ GDPR