Японската комисия за защита на личната информация (PPC) прилага Закона за защита на личната информация (APPI) с изменения от 2022 г., които значително разширяват защитата, включително нови разпоредби за псевдонимизирана информация, ограничения за трансграничен трансфер и управление на данните за обучение на AI. PPC издаде 45 решения за принудително изпълнение през 2024 г. и публикува първите специфични за Япония насоки за поверителност на AI.
APPI 2022: Какво се промени
Измененията на APPI от 2022 г. изискват 2,4 милиона японски предприятия да актуализират политиките за поверителност и да въведат нови процедури за обработка:
Псевдонимизирана информация (仮名加工情報): Нова категория — лични данни, обработвани за премахване на идентифицираща информация, но където повторното идентифициране е теоретично възможно с отделен ключ. Псевдонимизираната информация може да се споделя вътрешно без същите изисквания за съгласие като личните данни, но не може да се предоставя на трети страни. Това създава специфична за Япония средна категория между лични данни и анонимизирана информация.
Анонимизирана информация (匿名加工情報): Трябва да се обработи така, че повторното идентифициране да е технически невъзможно — потвърдено от квалифицирана трета страна. Японският стандарт за анонимизиране е по-строг от GDPR в едно ключово отношение: проверката от трета страна е задължителна, а не по избор.
Трансгранични трансфери: Измененията от 2022 г. засилиха ограниченията за трансфери, изисквайки трансферите към трети страни да осигуряват ниво на защита, „еквивалентно“ на японските стандарти. PPC поддържа списък с одобрени държави. ЕС има адекватно отношение към Япония съгласно рамката APPI.
Данни за обучение на AI: Ръководството за PPC от 2024 г. изрично се отнася до наборите от данни за обучение на AI. Основни изисквания:
- Личните данни, използвани за обучение с изкуствен интелект, трябва или да бъдат наистина анонимизирани (отговарящи на стриктния стандарт на Япония, потвърден от трета страна), или да се обработват съгласно конкретно правно основание (обикновено съгласие)
- „Изключение за статистическа обработка“ в APPI се прилага за обучение с изкуствен интелект само когато полученият модел не може да се използва за идентифициране на лица от резултатите
- LLM компаниите, обучаващи се на японски лични данни, извлечени от уебсайтове, трябва да демонстрират легитимно основание за събиране
Моят номер: Национален идентификатор на Япония
Японският My Number (マイナンバー) — официално Индивидуален номер (個人番号) — е 12-цифрен национален идентификационен номер, издаван на всички жители на Япония, включително чуждестранни граждани. Присвоен от 2016 г. на 1,36 милиарда жители на Япония, My Number се използва за данъчна администрация, социално осигуряване и реакция при бедствия.
Техническа структура: My Number използва алгоритъма на Verhoeff за изчисляване на контролна цифра — същата сложна групова теоретична схема за откриване на грешки, използвана за Aadhaar в Индия. Този алгоритъм е значително по-сложен за изпълнение от алгоритъма на Luhn (използван за шведско personnummer, SIN) и базираните на модул алгоритми, използвани от повечето европейски национални идентификатори.
Предизвикателства при откриване:
- Генерично съвпадение на шаблони на 12-цифрени числа генерира масивни фалшиви положителни резултати в японски документи (дати, пощенски кодове, комбинирани с телефонни номера, номера на фактури)
- Валидирането на Verhoeff изисква цялостно прилагане на груповите операционни таблици - не просто модулно аритметично изчисление
- Моят номер се появява с японски букви заедно с цифрите в контекста на някои документи
Техническата оценка на PPC от 2024 г. установи, че 63% от внедрените генерични инструменти NLP не успяват да открият точно My Number в японски документи.
Обработка на японски език: предизвикателството на скрипта
Японският текст използва едновременно три системи за писане — хирагана, катакана и канджи (китайски йероглифи) — плюс латиница (ромаджи) за някои контексти. Имената могат да се показват във всяка комбинация от тези скриптове и едно и също име може да се показва по различен начин в различни контексти.
NER предизвикателства, специфични за японски:
- Разпознаването на имена изисква модели на японски език (spaCy ja_core_news с японска токенизация)
- Японският не използва интервали между думите - самото токенизиране е отделна стъпка на обработка, изискваща познати на японски токенизатори
- Имената на хората обикновено се изписват на канджи с фуригана (фонетично ръководство в хирагана/катакана) — инструментите трябва да откриват както формата на канджи, така и фонетичната форма
- Японските имена на организации (会社名, 株式会社) изискват специфични за Япония модели за разпознаване на организации
Други японски идентификатори
Номер на шофьорска книжка: 12-цифрен формат с префикс на код на префектура. Кодовете на префектурите са стандартизирани (Токио = 10, Осака = 62 и т.н.), което позволява валидиране на географския компонент.
**Японски паспорт: ** Стандартен формат ICAO със специфични за Япония правила за издаване.
Сертификат за здравно осигуряване (健康保険証): Символ за застраховка (記号) + числов формат, със специфични за издателя вариации на формата в множеството схеми за здравно осигуряване в Япония.
Карта за пребиваване (在留カード): Формат за чуждестранни жители — 2 букви + 8 цифри + 2 букви, с валидиране, специфично за Министерството на правосъдието.
Статус на трансфер на данни Япония-ЕС
Япония и ЕС имат взаимни решения относно адекватността — потоци от лични данни между ЕС и Япония без да са необходими допълнителни механизми за трансфер. Това двустранно споразумение (в сила от 2019 г.) прави Япония една от малкото неевропейски държави с пълна адекватност на ЕС.
Взаимната адекватност обхваща стандартни бизнес лични данни. Някои категории — чувствителни здравни данни, криминални досиета — изискват допълнителни предпазни мерки дори при споразумението за адекватност.
За организации, обработващи японски лични данни: Откриването на моя номер с валидиране на Verhoeff е технически най-взискателното изискване, последвано от поддръжка на NER на японски език, използвайки модели, обучени на текст на японски скрипт. Двуезичната обработка на японски/английски е все по-необходима за мултинационални организации с японски операции.
Източници:
- [PPC: Японска комисия за защита на личната информация] (https://www.ppc.go.jp/)
- [PPC: AI Guidance 2024] (https://www.ppc.go.jp/)
- APPI 2022: Резюме на измененията