PPC ญี่ปุ่น และ APPI: การปฏิบัติตามกฎหมายข้อมูล AI
PPC ของญี่ปุ่นบังคับใช้กฎหมาย APPI การแก้ไขในปี 2022 เปลี่ยนแปลงกฎหมายนี้มากกว่าการอัปเดตครั้งก่อนๆ ทั้งหมด โดยเพิ่มกฎเกี่ยวกับข้อมูลที่ใช้ชื่อปลอม การโอนข้ามพรมแดน และชุดข้อมูลฝึก AI PPC ออกคำวินิจฉัย 45 ฉบับในปี 2024 และยังเผยแพร่แนวทาง AI เฉพาะสำหรับญี่ปุ่นเป็นครั้งแรกในปีนั้น
หากบริษัทของคุณฝึกโมเดลด้วยข้อความภาษาญี่ปุ่น หรือเก็บข้อมูลผู้ใช้ชาวญี่ปุ่น กฎเหล่านี้มีผลบังคับใช้ตั้งแต่บัดนี้
การแก้ไขปี 2022 เปลี่ยนแปลงอะไรบ้าง
องค์กรญี่ปุ่น 2.4 ล้านแห่งต้องปรับปรุงนโยบายความเป็นส่วนตัวและแก้ไขขั้นตอนการจัดการข้อมูล
ข้อมูลที่ใช้ชื่อปลอม (仮名加工情報): ประเภทกลางใหม่ ครอบคลุมข้อมูลส่วนบุคคลที่ลบตัวระบุโดยตรงออกแล้ว การระบุตัวตนซ้ำยังเป็นไปได้หากมีกุญแจ ข้อมูลเหล่านี้สามารถโอนภายในองค์กรได้โดยไม่ต้องได้รับความยินยอมเต็มรูปแบบ แต่ไม่สามารถส่งให้บุคคลที่สาม GDPR ไม่มีประเภทนี้
ข้อมูลนิรนาม (匿名加工情報): การระบุตัวตนซ้ำต้องเป็นไปไม่ได้ทางเทคนิค บุคคลที่สามที่มีคุณสมบัติต้องยืนยันเรื่องนี้ มาตรฐานของญี่ปุ่นสูงกว่า GDPR ในจุดนี้ GDPR ทำให้การตรวจสอบนั้นเป็นตัวเลือก แต่ APPI ทำให้บังคับ
การโอนข้ามพรมแดน: การโอนไปยังประเทศอื่นต้องเป็นไปตามมาตรฐานการคุ้มครองของญี่ปุ่น PPC เก็บรายชื่อประเทศที่ได้รับอนุมัติ โดย EU อยู่ในรายการนั้น
ชุดข้อมูลฝึก AI: แนวทาง PPC ปี 2024 ครอบคลุมเรื่องนี้โดยตรง
- ชุดข้อมูลฝึกต้องนิรนามอย่างสมบูรณ์ หรืออาศัยฐานทางกฎหมายที่ถูกต้อง ซึ่งมักเป็นความยินยอม
- ข้อยกเว้นการประมวลผลใช้ได้เฉพาะเมื่อโมเดลไม่สามารถระบุตัวบุคคลจากผลลัพธ์ได้
- นักพัฒนา LLM ที่ฝึกโมเดลด้วยข้อมูลญี่ปุ่นที่ดึงมาจากเว็บไซต์ต้องแสดงฐานการรวบรวมที่ถูกต้อง
สำหรับภาพรวมทั้งหมดของหน้าที่การปฏิบัติตามการโอนข้ามพรมแดน ดูที่ /legal/compliance
My Number: หมายเลขประจำชาติของญี่ปุ่น
My Number (マイナンバー) คือหมายเลขประจำชาติ 12 หลัก ญี่ปุ่นออกให้แก่ผู้อยู่อาศัยทุกคน รวมถึงชาวต่างชาติด้วย ระบบนี้เริ่มใช้ตั้งแต่ปี 2016 ครอบคลุมภาษี ประกันสังคม และการรับมือภัยพิบัติ
วิธีทำงานของเลขตรวจสอบ: My Number ใช้วิธี Verhoeff ซึ่งเป็นระบบตรวจสอบข้อผิดพลาดทางคณิตศาสตร์ ยากกว่า Luhn ซึ่งใช้สำหรับ personnummer ของสวีเดนและ SIN ของแคนาดา หมายเลขประจำชาติยุโรปส่วนใหญ่ใช้คณิตศาสตร์โมดูลาร์ที่เรียบง่ายกว่า
ทำไมการตรวจจับจึงยาก: การสแกนหาสตริง 12 หลักไม่เพียงพอ วันที่ รหัสไปรษณีย์ และรหัสใบแจ้งหนี้ล้วนมีลักษณะเหมือนกัน คุณต้องใช้ตรรกะ Verhoeff เต็มรูปแบบเพื่อแยกแยะ regex อย่างง่ายไม่เพียงพอ
การตรวจสอบ PPC ปี 2024 พบข้อเท็จจริงที่น่าตกใจ: 63% ของเครื่องมือ NLP ทั่วไปไม่สามารถตรวจจับ My Number ในระเบียนภาษาญี่ปุ่น
ดูวิธีที่ anonym.legal จัดการ My Number ได้ที่ /entities
ระบบการเขียนสามระบบพร้อมกัน
ภาษาญี่ปุ่นใช้ Hiragana, Katakana และ Kanji ทั้งหมดในเวลาเดียวกัน อักษรโรมันยังปรากฏในบางบริบท ชื่อเดียวกันอาจมีลักษณะต่างกันในระเบียนต่างๆ เครื่องมือที่สร้างสำหรับข้อความอักษรละตินล้มเหลวกับภาษาญี่ปุ่นหากไม่มีการสนับสนุนเพิ่มเติม
ผลต่อการตรวจจับชื่อ:
- NER ภาษาญี่ปุ่นต้องการโมเดลที่ฝึกด้วยข้อความภาษาญี่ปุ่น ใช้ spaCy ja_core_news
- ภาษาญี่ปุ่นไม่มีช่องว่างระหว่างคำ การแบ่งคำเป็นขั้นตอนแยกต่างหาก ต้องใช้เครื่องมือที่รองรับภาษาญี่ปุ่น
- ชื่อบุคคลปรากฏในคันจิพร้อมคำอ่านใน Hiragana หรือ Katakana เครื่องมือต้องตรวจจับทั้งสองรูปแบบ
- ชื่อบริษัท (会社名, 株式会社) ต้องใช้กฎเฉพาะของญี่ปุ่น
สำหรับ NER ในภาษากลุ่ม APAC ดูที่ /docs/faq
รูปแบบหมายเลขประจำตัวญี่ปุ่นอื่นๆ
ใบขับขี่: 12 หลักพร้อมรหัสนำหน้าสำหรับภูมิภาคที่ออกใบอนุญาต รหัสเป็นค่าคงที่ โตเกียวคือ 10, โอซาก้าคือ 62 สามารถตรวจสอบส่วนภูมิภาคได้
หนังสือเดินทาง: รูปแบบ ICAO มาตรฐานพร้อมกฎการออกเฉพาะของญี่ปุ่น
บัตรประกันสุขภาพ (健康保険証): สัญลักษณ์ (記号) บวกหมายเลข รูปแบบแตกต่างกันตามผู้ประกัน
บัตรถิ่นพำนัก (在留カード): สำหรับผู้อยู่อาศัยชาวต่างชาติ รูปแบบ: ตัวอักษรสองตัว แปดหลัก สองตัวอักษร กระทรวงยุติธรรมเป็นผู้ออก
สถานะการโอนข้อมูล EU–ญี่ปุ่น
ญี่ปุ่นและ EU มีความเพียงพอร่วมกันตั้งแต่ปี 2019 ข้อมูลส่วนบุคคลสามารถไหลระหว่าง EU และญี่ปุ่นได้โดยไม่ต้องมีขั้นตอนเพิ่มเติม ญี่ปุ่นเป็นหนึ่งในประเทศนอกยุโรปเพียงไม่กี่แห่งที่มีความเพียงพอ EU เต็มรูปแบบ
ข้อตกลงครอบคลุมข้อมูลส่วนบุคคลมาตรฐาน ข้อมูลสุขภาพที่ละเอียดอ่อนและประวัติอาชญากรรมต้องการมาตรการป้องกันเพิ่มเติมแม้ภายใต้ความเพียงพอ บริษัทที่โอนข้อมูลเหล่านี้ต้องบันทึกขั้นตอนเพิ่มเติมที่ใช้
ตรวจสอบหน้าที่การโอนของคุณได้ที่ /security-compliance
รายการตรวจสอบการปฏิบัติตามกฎหมายญี่ปุ่นของคุณ
เริ่มต้นที่นี่หากคุณจัดการข้อมูลส่วนบุคคลภาษาญี่ปุ่น:
- การตรวจจับ My Number ด้วยตรรกะเลขตรวจสอบ Verhoeff
- NER ภาษาญี่ปุ่นด้วยโมเดลที่ฝึกด้วยข้อความอักษรญี่ปุ่น ไม่ใช่โมเดลอักษรละติน
- รองรับชื่อในรูปแบบคันจิ, Hiragana และ Katakana รวมถึงตัวแปรคำอ่าน
- การตรวจจับใบขับขี่พร้อมการตรวจสอบรหัสภูมิภาค
- การตรวจจับบัตรถิ่นพำนักด้วยตรรกะรูปแบบ MOJ
- การตรวจจับบัตรประกันสุขภาพในตัวแปรต่างๆ ของผู้ประกัน
- ฐานทางกฎหมายที่ถูกต้องสำหรับชุดข้อมูลฝึก AI ทุกชุดที่มีข้อมูลส่วนบุคคล
- การตรวจสอบโดยบุคคลที่สามสำหรับข้อมูลที่จัดประเภทเป็นนิรนามภายใต้ APPI
- มาตรการป้องกันเพิ่มเติมสำหรับข้อมูลที่ละเอียดอ่อนที่โอนภายใต้ข้อตกลงความเพียงพอ EU–ญี่ปุ่น
ดูคำจำกัดความคำศัพท์ APPI ที่ใช้ในคู่มือนี้ได้ที่ /docs/glossary