Японска PPC и APPI: Съответствие при обучение на AI модели с лични данни
Японската комисия за защита на личните данни (PPC) прилага Закона за защита на личната информация (APPI). Измененията от 2022 г. са най-значимата промяна на закона от приемането му. Те въвеждат правила за псевдонимизирани данни, презгранични трансфери и набори от данни за обучение на AI. PPC издаде 45 решения през 2024 г. и публикува първото специфично за Япония ръководство за поверителност при AI.
Ако вашата компания обучава модели върху японски текст или съхранява данни на японски потребители, тези правила се прилагат вече.
Какво промениха измененията от 2022 г.
2,4 милиона японски компании бяха длъжни да актуализират политиките си за поверителност и да преработят процедурите за обработка на данни.
Псевдонимизирана информация (仮名加工情報): Нова междинна категория. Обхваща лични данни, от които са премахнати преките идентификатори. Повторното идентифициране е възможно при наличие на ключ. Тези данни могат да се прехвърлят вътре в организацията без пълно съгласие, но не могат да се предоставят на трети страни. GDPR не познава такава категория.
Анонимизирана информация (匿名加工情報): Повторното идентифициране трябва да е технически невъзможно. Квалифицирана трета страна трябва да потвърди това. Японската летва е по-висока от тази на GDPR. При GDPR прегледът е незадължителен; при APPI е задължителен.
Презгранични трансфери: Трансферите към други държави трябва да отговарят на японския стандарт за защита. PPC поддържа списък на одобрените държави. ЕС фигурира в него.
Набори от данни за обучение на AI: Насоките на PPC от 2024 г. обхващат тази тема директно.
- Наборите за обучение трябва да бъдат напълно анонимизирани или да почиват на законово основание — обикновено съгласие.
- Изключението за обработка се прилага само ако моделът не може да идентифицира хора по резултатите си.
- Разработчиците на LLM, обучаващи се върху японски данни от уебсайтове, трябва да докажат законово основание за събирането им.
За пълен преглед на задълженията при трансгранично съответствие вижте /legal/compliance.
My Number: Националният идентификатор на Япония
My Number (マイナンバー) е 12-цифрен национален идентификатор. Япония го издава на всички жители — включително на чуждестранни граждани. Системата работи от 2016 г. и обхваща данъци, социално осигуряване и реакция при бедствия.
Как работи контролната цифра: My Number използва алгоритъма на Верхоф — математическа схема за проверка на грешки. Той е по-сложен за реализация от алгоритъма на Лун, прилаган при шведския personnummer и канадския SIN. Повечето европейски идентификатори използват по-прост модулен алгоритъм.
Защо разпознаването е трудно: Търсенето само на 12-цифрени поредици дава неточни резултати. Дати, пощенски кодове и номера на фактури изглеждат по същия начин. Необходима е пълна реализация на логиката на Верхоф. Простите регулярни изрази не са достатъчни.
Проверката на PPC от 2024 г. разкри тревожен факт: 63% от универсалните NLP инструменти не успяват да открият My Number в японски документи.
Вижте как anonym.legal обработва My Number на /entities.
Три писмени системи едновременно
Японският език използва хирагана, катакана и канджи едновременно. В определен контекст се среща и латиница. Едно и също собствено име може да изглежда различно в отделни документи. Инструменти, изградени за текст с латинска азбука, не работят с японски без допълнителна поддръжка.
Какво означава това за разпознаването на имена:
- Японският NER изисква модели, обучени на японски текст — например spaCy ja_core_news.
- Японският език няма интервали между думите. Разграничаването на думите е отделна стъпка и изисква съвместими инструменти.
- Имената на хора се изписват с канджи, а четенето им се указва с хирагана или катакана. Инструментите трябва да разпознават и двете форми.
- Имената на компании (会社名, 株式会社) изискват специфични за Япония правила.
За NER при езиците от Азиатско-тихоокеанския регион вижте /docs/faq.
Други японски идентификатори
Шофьорска книжка: 12 цифри с префиксен код за региона на издаване. Кодовете са фиксирани — Токио е 10, Осака е 62. Регионалната част може да бъде проверена.
Паспорт: Стандартен формат ICAO с правила за издаване, специфични за Япония.
Здравноосигурителна карта (健康保険証): Символ (記号) плюс номер. Форматът варира в зависимост от здравноосигурителното дружество.
Карта за пребиваване (在留カード): За чуждестранни жители. Формат: две букви, осем цифри, две букви. Издава се от Министерството на правосъдието.
Статус на трансфера на данни ЕС–Япония
От 2019 г. между Япония и ЕС е в сила взаимно решение за адекватност. Личните данни се прехвърлят между двата региона без допълнителни мерки. Япония е сред малкото извъневропейски държави с пълно европейско решение за адекватност.
Споразумението обхваща стандартни лични данни. Чувствителните здравни данни и данните за криминална история изискват допълнителни гаранции дори при наличие на решение за адекватност. Компаниите, прехвърлящи такива данни, трябва да документират допълнителните мерки, които прилагат.
Прегледайте задълженията си при трансфер на /security-compliance.
Контролен списък за съответствие с APPI
Ако обработвате японски лични данни, започнете оттук:
- Разпознаване на My Number с логика за проверка на контролна цифра по Верхоф.
- Японски NER с модели, обучени на японски текст — не на латиноазбучни модели.
- Поддръжка на форми на имена с канджи, хирагана и катакана, включително варианти с ключове за четене.
- Разпознаване на шофьорска книжка с проверка на регионалния код.
- Разпознаване на карта за пребиваване с формат, издаден от Министерството на правосъдието.
- Разпознаване на здравноосигурителна карта за различните варианти на застрахователите.
- Валидно законово основание за всеки набор от данни за обучение на AI, съдържащ лични данни.
- Преглед от трета страна за данни, класифицирани като анонимизирани по APPI.
- Допълнителни гаранции за чувствителни данни, прехвърляни в рамките на споразумението за адекватност ЕС–Япония.
Вижте /docs/glossary за дефиниции на термините по APPI, използвани в това ръководство.