anonym.legal
Назад към блогаGDPR и съответствие

Япония PPC: Проверка на My Number Verhoeff и...

63% от общите инструменти не успяват да открият My Number в японски документи.

April 21, 20268 мин. четене
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Японската комисия за защита на личната информация (PPC) издаде 45 решения за принудително изпълнение през 2024 г. и публикува първите японски насоки за поверителност, специфични за ИИ. Техническата оценка на PPC от 2024 г. установи, че 63% от генеричните инструменти NLP, използвани за обработка на документи в Япония, не успяват да открият точно My Number (マイナンバー) — 12-цифрен национален идентификационен номер на Япония. За организации с операции в Япония или обработка на данни на японски граждани тази празнина създава пряко излагане на съответствие на APPI.

My Number: The Verhoeff Validation Challenge

Японската система за индивидуални номера (マイナンバー制度, My Number System) присвоява уникален 12-цифрен номер на всеки жител на Япония (1,36 милиарда потребители). Моят номер се използва за:

  • Данъчна администрация (данъчни декларации, декларации за данъчни удръжки)
  • Социално осигуряване (пенсия, здравно осигуряване)
  • Реагиране при бедствия (идентификация при спешни случаи)

Алгоритъм на Verhoeff: Контролната цифра на моя номер използва алгоритъма на Verhoeff — групов теоретичен алгоритъм за откриване на грешки, който може да открие всички едноцифрени грешки и всички съседни грешки при транспониране. Алгоритъмът използва три справочни таблици: таблица за умножение на двустенна група (D5), обратна таблица и таблица за пермутация.

Реализацията на Verhoeff изисква поддържане на тези три таблици и прилагане на последователност от справки. За разлика от алгоритъма на Luhn (проста модулна аритметика), Verhoeff не може да бъде мислено изчислен - той изисква програмна реализация.

Защо това има значение за откриването на PII:

  • 12-цифреният формат на My Number съвпада с много референтни номера на японски документи
  • Без валидиране на Verhoeff инструментите генерират масивни фалшиви положителни резултати от номера на фактури, референтни кодове на документи и последователности от дата-час
  • Инструменти, които прилагат само основни модулни контролни цифри (модул 10 или 11), не могат да валидират моя номер и ще пропуснат номера, които изискват Verhoeff да потвърди

Оценката на PPC за 2024 г. установи, че 63% от внедрените инструменти или съвпадат с шаблони без валидиране, или прилагат по-прости модулни проверки — генерирайки фалшиви положителни и фалшиви отрицателни резултати едновременно.

Японска писменост: Предизвикателството на трите системи

Японският текст използва три системи за писане едновременно:

Хирагана (ひらがな): Фонетична сричка, използвана за граматични частици, окончания на глаголни спрежения и местни японски думи. 46 основни символа.

Катакана (カタカナ): Фонетична сричка, използвана за чужди думи, технически термини и ударение. 46 основни символа. Чуждите имена на японски обикновено се изписват на катакана.

Канджи (漢字): Логографски знаци, извлечени от китайски, използвани за съществителни, глаголни корени и имена. Японският използва приблизително 2000 обикновени канджи.

Кодиране на японско име: Името на един японски човек може да се появи в:

  • Форма на канджи: 田中太郎
  • Хирагана (фонетично ръководство, фуригана): たなかたろう
  • Катакана (като чуждо съдържание): タナカ タロウ
  • Romaji (латиница): Tanaka Taro или TANAKA Taro (за международни документи)

Инструментът за лична информация трябва да разпознава всичките четири форми на едно и също име - или рискува да пропусне по-голямата част от срещанията на имена в японски документи.

Японски национални идентификатори извън моя номер

Номер на шофьорска книжка (運転免許証番号): 12 цифри, започващи с 2-цифрен код на префектура (10 за Токио, 62 за Осака и т.н.). Кодовете на префектурите позволяват географско валидиране на номера на лиценза.

Японски паспорт (旅券番号): Стандартен формат ICAO — 2 букви, последвани от 7 цифри. Специфичните за Япония буквени комбинации следват конвенциите за издаване.

Номер на здравноосигурителния сертификат (健康保険証記号番号): Форматът на застрахователния символ + номер варира според застрахователя (Япония има множество здравноосигурителни схеми за различни категории заетост). Общата застраховка (国民健康保険) се различава от застраховката, управлявана от обществото (協会けんぽ).

Номер на картата за пребиваване (在留カード番号): За чуждестранни жители — формат 2 букви + 8 цифри + 2 букви, издаден от Министерството на правосъдието.

ZPRZ0006 Стандарт за анонимна информация на ZPRZ

Японският APPI създава по-строг стандарт за анонимизиране от GDPR по един конкретен начин: стандартът за „анонимизирана информация“ (匿名加工情報) изисква анонимизирането да бъде потвърдено от трета страна и технически необратимо. Организациите, които създават анонимни набори от данни, трябва:

  1. Изтрийте или заменете всички директни идентификатори (включително Моят номер)
  2. Адресирайте всички комбинации от квазиидентификатори
  3. Приложете k-анонимност или еквивалентна техника
  4. Публикуване на предприетите мерки (общо описание, без разкриване на конкретни подробности за изпълнението)
  5. Не се опитвайте да идентифицирате повторно анонимизираните данни

Ръководството на PPC за 2024 AI добавя: организациите, използващи анонимизирани набори от данни за обучение на AI, не могат да използват получения модел на AI, за да се опитат да идентифицират повторно лица от данните за обучение — изрична забрана за атаки с инверсия на модела срещу APPI-анонимизирани набори за обучение.

За APPI-съвместима обработка: Моят номер с валидиране на Verhoeff, NER на японски език, използващ spaCy ja_core_news с японска токенизация, разпознаване на име с няколко скрипта във формуляри Kanji/Kana/Romaji и валидиране на префектурен код на шофьорска книжка са техническата основа за съответствие с PPC.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.