Số My Number Nhật Bản: APPI và kiểm tra Verhoeff
Ủy ban Bảo vệ Thông tin Cá nhân Nhật Bản (PPC) đã ban hành 45 quyết định thực thi vào năm 2024. Cơ quan này cũng công bố hướng dẫn bảo mật AI đầu tiên của Nhật Bản. Một nghiên cứu của PPC phát hiện rằng 63% công cụ NLP phổ thông thất bại trong việc phát hiện My Number (マイナンバー) trong các tệp tiếng Nhật. Nếu nhóm của bạn xử lý dữ liệu của cư dân Nhật Bản, khoảng cách đó đồng nghĩa với rủi ro APPI trực tiếp.
My Number là gì
Nhật Bản cấp cho mỗi cư dân một mã định danh duy nhất gồm 12 chữ số. Đây là My Number, một phần của Hệ thống Số Cá nhân (マイナンバー制度). Nó bao gồm thuế, lương hưu, bảo hiểm y tế và ứng phó thảm họa. Định danh này là dữ liệu nhạy cảm theo APPI. Bạn cần lý do pháp lý để thu thập hoặc chia sẻ nó.
Vấn đề kiểm tra Verhoeff
My Number sử dụng thuật toán Verhoeff cho chữ số kiểm tra của nó. Verhoeff là một phương pháp toán học bắt được tất cả lỗi chữ số đơn. Nó cũng bắt được tất cả lỗi khi hai chữ số liền kề hoán đổi. Nó cần ba bảng tra cứu để hoạt động. Bạn không thể tính tay được. Nó yêu cầu code.
Điều này quan trọng vì hai lý do. Thứ nhất, định dạng 12 chữ số của Nhật Bản trông giống nhiều mã khác. Mã tham chiếu hóa đơn, ID tài liệu và chuỗi ngày tháng đều có cùng định dạng. Không có kiểm tra Verhoeff, công cụ sẽ đánh dấu nhầm các giá trị. Thứ hai, hầu hết các công cụ không dùng Verhoeff. Chúng dùng kiểm tra modulo-10 hoặc modulo-11 đơn giản hơn. Những cách đó không hoạt động ở đây.
Nghiên cứu của PPC phát hiện rằng 63% công cụ bỏ qua kiểm tra hoặc dùng phương pháp đơn giản hơn. Cả hai vấn đề đều xảy ra đồng thời: dương tính giả và âm tính giả.
Thuật toán Luhn, được dùng cho thẻ tín dụng, đơn giản hơn. My Number không dùng Luhn. Các công cụ được xây dựng cho Luhn sẽ không hoạt động.
Ba chữ viết, một cái tên
Văn bản tiếng Nhật dùng ba hệ thống chữ viết cùng lúc. Công cụ phải xử lý cả ba.
Hiragana (ひらがな): Dùng cho ngữ pháp và từ bản địa. 46 ký tự cơ bản.
Katakana (カタカナ): Dùng cho từ nước ngoài và tên người. 46 ký tự cơ bản. Tên người nước ngoài tại Nhật xuất hiện bằng chữ viết này.
Kanji (漢字): Ký hiệu cho danh từ và tên người. Khoảng 2.000 ký tự được dùng phổ biến.
Tên một người có thể xuất hiện ở bốn dạng: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), và Romaji (Tanaka Taro). Công cụ phải khớp cả bốn. Nếu bỏ lỡ một dạng, nó bỏ lỡ phần lớn hồ sơ của người đó.
Các ID Nhật Bản khác cần phát hiện
Bằng lái xe (運転免許証番号): 12 chữ số. Hai chữ số đầu cho thấy tỉnh. Tokyo là 10. Osaka là 62. Điều này cho phép công cụ kiểm tra xem giá trị có hợp lệ cho khu vực đó không.
Hộ chiếu (旅券番号): Hai chữ cái cộng bảy chữ số. Định dạng ICAO. Nhật Bản dùng các cặp chữ cái cụ thể.
Thẻ bảo hiểm y tế (健康保険証記号番号): Một ký hiệu cộng một số. Định dạng phụ thuộc vào công ty bảo hiểm. Bảo hiểm y tế quốc gia (国民健康保険) và Bảo hiểm quản lý bởi hội (協会けんぽ) dùng các định dạng khác nhau.
Thẻ cư trú (在留カード番号): Dành cho cư dân nước ngoài. Hai chữ cái, tám chữ số, hai chữ cái. Bộ Tư pháp cấp thẻ này.
Quy tắc ẩn danh hóa của APPI
APPI có một tiêu chuẩn dữ liệu ẩn danh nghiêm ngặt gọi là thông tin ẩn danh (匿名加工情報). Nó đi xa hơn GDPR ở một điểm then chốt. Ẩn danh hóa phải có thể xác minh bởi bên thứ ba và không thể đảo ngược về mặt kỹ thuật.
Để tuân thủ, một tổ chức phải:
- Xóa tất cả định danh trực tiếp, bao gồm My Number.
- Xử lý tất cả các tổ hợp bán định danh.
- Dùng k-ẩn danh hoặc phương pháp tương tự.
- Công bố mô tả chung về các bước đã thực hiện.
- Không bao giờ cố gắng tái định danh dữ liệu.
Hướng dẫn AI 2024 của PPC bổ sung một quy tắc cụ thể. Nếu bạn huấn luyện AI trên dữ liệu ẩn danh, bạn không thể dùng mô hình đó để tái định danh người dùng. Đây là lệnh cấm trực tiếp đối với các cuộc tấn công đảo ngược mô hình vào các bộ dữ liệu huấn luyện theo APPI.
Để đáp ứng tiêu chuẩn PPC, bạn cần bốn thứ. Thứ nhất, xác thực Verhoeff để phát hiện My Number. Thứ hai, NER tiếng Nhật dùng ja_core_news với tokenization đúng cách. Thứ ba, khớp tên qua Kanji, Kana và Romaji. Thứ tư, kiểm tra mã tỉnh cho bằng lái xe.
Ấn Độ dùng Aadhaar, cũng yêu cầu xác thực Verhoeff. Hướng dẫn tuân thủ kỹ thuật DPDPA Ấn Độ đề cập chi tiết điều đó. Để phát hiện định danh đa quốc gia, xem phát hiện mã số thuế EU theo GDPR.