Ủy ban Bảo vệ Thông tin Cá nhân Nhật Bản (PPC) thực thi Đạo luật Bảo vệ Thông tin Cá nhân (APPI), với các sửa đổi năm 2022 mở rộng đáng kể phạm vi bảo vệ, bao gồm các quy định mới về thông tin giả danh, hạn chế chuyển giao dữ liệu xuyên biên giới và quản trị dữ liệu đào tạo AI. PPC đã ban hành 45 quyết định thực thi trong năm 2024 và công bố hướng dẫn bảo mật AI đầu tiên dành riêng cho Nhật Bản.
APPI 2022: Những Thay Đổi Chính
Các sửa đổi APPI 2022 yêu cầu 2,4 triệu doanh nghiệp Nhật Bản cập nhật chính sách bảo mật và triển khai các quy trình xử lý mới:
Thông tin giả danh (仮名加工情報): Một danh mục mới — dữ liệu cá nhân được xử lý để loại bỏ thông tin nhận dạng nhưng về mặt lý thuyết có thể tái nhận dạng bằng một khóa riêng biệt. Thông tin giả danh có thể được chia sẻ nội bộ mà không cần các yêu cầu đồng ý như đối với dữ liệu cá nhân, nhưng không thể cung cấp cho bên thứ ba. Điều này tạo ra một danh mục trung gian đặc thù của Nhật Bản giữa dữ liệu cá nhân và thông tin ẩn danh.
Thông tin ẩn danh (匿名加工情報): Phải được xử lý sao cho việc tái nhận dạng là không thể về mặt kỹ thuật — được xác minh bởi bên thứ ba đủ điều kiện. Tiêu chuẩn ẩn danh của Nhật Bản nghiêm ngặt hơn GDPR ở một điểm then chốt: xác minh bên thứ ba là bắt buộc, không phải tùy chọn.
Chuyển giao dữ liệu xuyên biên giới: Các sửa đổi 2022 tăng cường hạn chế chuyển giao, yêu cầu các chuyển giao sang nước thứ ba phải đảm bảo mức độ bảo vệ "tương đương" với tiêu chuẩn của Nhật Bản. PPC duy trì danh sách các quốc gia được chấp thuận. EU có quyết định tương đương với Nhật Bản theo khung APPI.
Dữ liệu đào tạo AI: PPC ban hành hướng dẫn năm 2024 đề cập rõ ràng đến tập dữ liệu đào tạo AI. Các yêu cầu chính:
- Dữ liệu cá nhân dùng để đào tạo AI phải được ẩn danh thực sự (đáp ứng tiêu chuẩn xác minh bên thứ ba nghiêm ngặt của Nhật Bản) hoặc được xử lý theo cơ sở pháp lý cụ thể (thường là sự đồng ý)
- "Ngoại lệ xử lý thống kê" trong APPI chỉ áp dụng cho đào tạo AI khi mô hình kết quả không thể dùng để nhận dạng cá nhân từ đầu ra
- Các công ty LLM đào tạo trên dữ liệu cá nhân người Nhật thu thập từ website phải chứng minh cơ sở hợp pháp cho việc thu thập
My Number: Mã Định Danh Quốc Gia Nhật Bản
My Number (マイナンバー) của Nhật Bản — chính thức là Số Cá nhân (個人番号) — là mã định danh quốc gia 12 chữ số được cấp cho tất cả cư dân Nhật Bản, bao gồm cả người nước ngoài. Được cấp từ năm 2016 cho 1,36 tỷ cư dân Nhật Bản, My Number được dùng cho quản lý thuế, an sinh xã hội và ứng phó thảm họa.
Cấu trúc kỹ thuật: My Number sử dụng thuật toán Verhoeff để tính chữ số kiểm tra — cùng sơ đồ phát hiện lỗi dựa trên lý thuyết nhóm phức tạp được dùng cho Aadhaar ở Ấn Độ. Thuật toán này phức tạp hơn đáng kể so với thuật toán Luhn (dùng cho personnummer Thụy Điển, SIN) và các thuật toán dựa trên mô-đun được dùng bởi hầu hết các mã định danh quốc gia châu Âu.
Thách thức phát hiện:
- Khớp mẫu chung với các số 12 chữ số tạo ra rất nhiều kết quả dương tính giả trong tài liệu tiếng Nhật (ngày tháng, mã bưu chính kết hợp số điện thoại, số hóa đơn)
- Xác thực Verhoeff yêu cầu triển khai đầy đủ bảng phép toán nhóm — không phải phép tính số học mô-đun đơn giản
- My Number xuất hiện ở dạng ký tự tiếng Nhật bên cạnh các chữ số trong một số ngữ cảnh tài liệu
Đánh giá kỹ thuật năm 2024 của PPC cho thấy 63% công cụ NLP chung đã triển khai không phát hiện chính xác My Number trong tài liệu tiếng Nhật.
Xử Lý Ngôn Ngữ Nhật Bản: Thách Thức Chữ Viết
Văn bản tiếng Nhật sử dụng đồng thời ba hệ thống chữ viết — Hiragana, Katakana và Kanji (chữ Hán) — cùng với chữ La Mã (Romaji) cho một số ngữ cảnh. Tên có thể xuất hiện ở bất kỳ sự kết hợp nào của các hệ thống chữ viết này, và cùng một tên có thể xuất hiện khác nhau trong các ngữ cảnh khác nhau.
Thách thức NER đặc thù của tiếng Nhật:
- Nhận dạng tên yêu cầu mô hình ngôn ngữ tiếng Nhật (spaCy ja_core_news với phân đoạn từ tiếng Nhật)
- Tiếng Nhật không dùng dấu cách giữa các từ — bản thân việc phân đoạn là một bước xử lý riêng biệt yêu cầu bộ phân đoạn từ hiểu tiếng Nhật
- Tên người thường được viết bằng Kanji với furigana (hướng dẫn phiên âm bằng Hiragana/Katakana) — công cụ phải phát hiện cả dạng Kanji lẫn dạng phiên âm
- Tên tổ chức tiếng Nhật (会社名, 株式会社) yêu cầu các mẫu nhận dạng tổ chức đặc thù tiếng Nhật
Các Mã Định Danh Nhật Bản Khác
Số bằng lái xe: Định dạng 12 chữ số với tiền tố mã tỉnh thành. Mã tỉnh thành được chuẩn hóa (Tokyo = 10, Osaka = 62, v.v.), cho phép xác thực thành phần địa lý.
Hộ chiếu Nhật Bản: Định dạng ICAO tiêu chuẩn với các quy ước cấp phát đặc thù của Nhật Bản.
Thẻ bảo hiểm y tế (健康保険証): Định dạng ký hiệu (記号) + số bảo hiểm, với các biến thể định dạng tùy nhà phát hành trên nhiều chương trình bảo hiểm y tế của Nhật Bản.
Thẻ cư trú (在留カード): Định dạng dành cho cư dân nước ngoài — 2 chữ cái + 8 chữ số + 2 chữ cái, với xác thực đặc thù của MOJ.
Tình Trạng Chuyển Giao Dữ Liệu Nhật Bản - EU
Nhật Bản và EU có quyết định tương đương lẫn nhau — dữ liệu cá nhân lưu chuyển giữa EU và Nhật Bản mà không cần các cơ chế chuyển giao bổ sung. Thỏa thuận song phương này (có hiệu lực từ năm 2019) làm Nhật Bản trở thành một trong số ít quốc gia ngoài châu Âu có quyết định tương đương đầy đủ với EU.
Quyết định tương đương áp dụng cho dữ liệu cá nhân kinh doanh tiêu chuẩn. Một số danh mục nhất định — dữ liệu sức khỏe nhạy cảm, hồ sơ tội phạm — yêu cầu các biện pháp bảo vệ bổ sung ngay cả trong thỏa thuận tương đương.
Đối với các tổ chức xử lý dữ liệu cá nhân người Nhật: phát hiện My Number với xác thực Verhoeff là yêu cầu kỹ thuật đòi hỏi nhất, tiếp theo là hỗ trợ NER tiếng Nhật sử dụng các mô hình được đào tạo trên văn bản chữ Nhật. Xử lý song ngữ Nhật/Anh ngày càng được yêu cầu đối với các tổ chức đa quốc gia có hoạt động tại Nhật Bản.
Nguồn tham khảo: