Японската комисия за защита на личната информация (PPC) издаде 45 решения за принудително изпълнение през 2024 г. и публикува първите японски насоки за поверителност, специфични за ИИ. Техническата оценка на PPC от 2024 г. установи, че 63% от генеричните инструменти NLP, използвани за обработка на документи в Япония, не успяват да открият точно My Number (マイナンバー) — 12-цифрен национален идентификационен номер на Япония. За организации с операции в Япония или обработка на данни на японски граждани тази празнина създава пряко излагане на съответствие на APPI.
My Number: The Verhoeff Validation Challenge
Японската система за индивидуални номера (マイナンバー制度, My Number System) присвоява уникален 12-цифрен номер на всеки жител на Япония (1,36 милиарда потребители). Моят номер се използва за:
- Данъчна администрация (данъчни декларации, декларации за данъчни удръжки)
- Социално осигуряване (пенсия, здравно осигуряване)
- Реагиране при бедствия (идентификация при спешни случаи)
Алгоритъм на Verhoeff: Контролната цифра на моя номер използва алгоритъма на Verhoeff — групов теоретичен алгоритъм за откриване на грешки, който може да открие всички едноцифрени грешки и всички съседни грешки при транспониране. Алгоритъмът използва три справочни таблици: таблица за умножение на двустенна група (D5), обратна таблица и таблица за пермутация.
Реализацията на Verhoeff изисква поддържане на тези три таблици и прилагане на последователност от справки. За разлика от алгоритъма на Luhn (проста модулна аритметика), Verhoeff не може да бъде мислено изчислен - той изисква програмна реализация.
Защо това има значение за откриването на PII:
- 12-цифреният формат на My Number съвпада с много референтни номера на японски документи
- Без валидиране на Verhoeff инструментите генерират масивни фалшиви положителни резултати от номера на фактури, референтни кодове на документи и последователности от дата-час
- Инструменти, които прилагат само основни модулни контролни цифри (модул 10 или 11), не могат да валидират моя номер и ще пропуснат номера, които изискват Verhoeff да потвърди
Оценката на PPC за 2024 г. установи, че 63% от внедрените инструменти или съвпадат с шаблони без валидиране, или прилагат по-прости модулни проверки — генерирайки фалшиви положителни и фалшиви отрицателни резултати едновременно.
Японска писменост: Предизвикателството на трите системи
Японският текст използва три системи за писане едновременно:
Хирагана (ひらがな): Фонетична сричка, използвана за граматични частици, окончания на глаголни спрежения и местни японски думи. 46 основни символа.
Катакана (カタカナ): Фонетична сричка, използвана за чужди думи, технически термини и ударение. 46 основни символа. Чуждите имена на японски обикновено се изписват на катакана.
Канджи (漢字): Логографски знаци, извлечени от китайски, използвани за съществителни, глаголни корени и имена. Японският използва приблизително 2000 обикновени канджи.
Кодиране на японско име: Името на един японски човек може да се появи в:
- Форма на канджи: 田中太郎
- Хирагана (фонетично ръководство, фуригана): たなかたろう
- Катакана (като чуждо съдържание): タナカ タロウ
- Romaji (латиница): Tanaka Taro или TANAKA Taro (за международни документи)
Инструментът за лична информация трябва да разпознава всичките четири форми на едно и също име - или рискува да пропусне по-голямата част от срещанията на имена в японски документи.
Японски национални идентификатори извън моя номер
Номер на шофьорска книжка (運転免許証番号): 12 цифри, започващи с 2-цифрен код на префектура (10 за Токио, 62 за Осака и т.н.). Кодовете на префектурите позволяват географско валидиране на номера на лиценза.
Японски паспорт (旅券番号): Стандартен формат ICAO — 2 букви, последвани от 7 цифри. Специфичните за Япония буквени комбинации следват конвенциите за издаване.
Номер на здравноосигурителния сертификат (健康保険証記号番号): Форматът на застрахователния символ + номер варира според застрахователя (Япония има множество здравноосигурителни схеми за различни категории заетост). Общата застраховка (国民健康保険) се различава от застраховката, управлявана от обществото (協会けんぽ).
Номер на картата за пребиваване (在留カード番号): За чуждестранни жители — формат 2 букви + 8 цифри + 2 букви, издаден от Министерството на правосъдието.
ZPRZ0006 Стандарт за анонимна информация на ZPRZ
Японският APPI създава по-строг стандарт за анонимизиране от GDPR по един конкретен начин: стандартът за „анонимизирана информация“ (匿名加工情報) изисква анонимизирането да бъде потвърдено от трета страна и технически необратимо. Организациите, които създават анонимни набори от данни, трябва:
- Изтрийте или заменете всички директни идентификатори (включително Моят номер)
- Адресирайте всички комбинации от квазиидентификатори
- Приложете k-анонимност или еквивалентна техника
- Публикуване на предприетите мерки (общо описание, без разкриване на конкретни подробности за изпълнението)
- Не се опитвайте да идентифицирате повторно анонимизираните данни
Ръководството на PPC за 2024 AI добавя: организациите, използващи анонимизирани набори от данни за обучение на AI, не могат да използват получения модел на AI, за да се опитат да идентифицират повторно лица от данните за обучение — изрична забрана за атаки с инверсия на модела срещу APPI-анонимизирани набори за обучение.
За APPI-съвместима обработка: Моят номер с валидиране на Verhoeff, NER на японски език, използващ spaCy ja_core_news с японска токенизация, разпознаване на име с няколко скрипта във формуляри Kanji/Kana/Romaji и валидиране на префектурен код на шофьорска книжка са техническата основа за съответствие с PPC.
Източници:
- [PPC: Комисия за защита на личната информация, Япония] (https://www.ppc.go.jp/)
- [PPC: Ръководство за поверителност на AI 2024] (https://www.ppc.go.jp/personalinfo/aiact/)
- APPI 2022: Резюме на измененията