APPI: กรอบการคุ้มครองข้อมูลที่ครอบคลุมของญี่ปุ่น
Personal Information Protection Commission (PPC) ของญี่ปุ่นออก 45 คำตัดสินการบังคับใช้ในปี 2024 และเผยแพร่แนวทาง AI เฉพาะครั้งแรกของญี่ปุ่น การประเมินทางเทคนิคของ PPC ปี 2024 พบว่า 63% ของเครื่องมือ NLP ทั่วไปที่ deploy สำหรับการประมวลผลเอกสารภาษาญี่ปุ่นล้มเหลวในการตรวจจับ My Number อย่างถูกต้อง
My Number (マイナンバー): ตัวระบุประชาชนญี่ปุ่น
My Number คือหมายเลขประจำตัวบุคคล 12 หลักที่ออกให้แก่ประชาชนญี่ปุ่นและผู้มีถิ่นที่อยู่ถาวรในญี่ปุ่นทุกคน ออกใช้งานในปี 2016 และใช้สำหรับ:
- ภาษี (การยื่นแบบ ใบรับรองการจ้างงาน)
- ประกันสังคม (เงินบำนาญ ประกันสุขภาพ)
- ภัยพิบัติและกู้ภัย
ความซับซ้อนของ Verhoeff algorithm: My Number ใช้ Verhoeff algorithm สำหรับหลักตรวจสอบ Verhoeff เป็นหนึ่งในอัลกอริทึมตรวจสอบที่ซับซ้อนที่สุด ต้องใช้:
- ตาราง multiplication ที่กำหนดเองขนาด 10×10
- ตาราง permutation ขนาด 10×10
- ชุด inverse
เนื่องจากความซับซ้อนนี้ ไลบรารีการตรวจจับ PII ทั่วไปส่วนใหญ่ใช้การจับคู่ pattern อย่างง่าย (regex) โดยไม่มีการตรวจสอบ Verhoeff ทำให้เกิด false positives และ false negatives สูง
ความท้าทายของภาษาญี่ปุ่นในการตรวจจับ PII
ระบบการเขียนภาษาญี่ปุ่น: ภาษาญี่ปุ่นใช้อักษรสามระบบ: Hiragana (ひらがな), Katakana (カタカナ) และ Kanji (漢字) ชื่อบุคคลสามารถเขียนได้ในทั้งสามระบบ และตัวระบุตัวเลข เช่น My Number มักปรากฏในรูปแบบผสม
ตัวอย่าง:
- My Number ด้วยตัวเลขอาหรับ: 1234 5678 9012
- My Number ด้วยตัวเลขญี่ปุ่น (Kanji): 一二三四 五六七八 九〇一二
- PII บนบัตร My Number ใน Kanji และ Kana
ข้อกำหนดการตรวจจับ: เครื่องมือตรวจจับ PII ภาษาญี่ปุ่นที่ถูกต้องต้องสามารถ:
- ตรวจจับ My Number ในอักษรทั้งสามระบบ
- ตรวจสอบ Verhoeff checksum
- ตรวจจับชื่อญี่ปุ่นในทุก script (ไม่ใช่แค่ ASCII)
ข้อกำหนดการบังคับใช้ APPI
APPI กำหนดหมวดหมู่พิเศษ:
- My Number ถือเป็น "specific personal information" ภายใต้ My Number Act (2013)
- การประมวลผลต้องได้รับอนุมัติกฎหมายเฉพาะ
- การเก็บ My Number นอกวัตถุประสงค์ที่กำหนดถือเป็นอาชญากรรม
บทลงโทษ My Number Act:
- การเปิดเผยที่ผิดกฎหมาย: จำคุกสูงสุด 4 ปี + ปรับ ¥2 ล้าน
- การใช้งานไม่ถูกต้อง: จำคุกสูงสุด 2 ปี + ปรับ ¥1 ล้าน
แหล่งที่มา: