PPC Japonia i APPI: Zgodność danych treningowych AI
Japońska Komisja Ochrony Informacji Osobowych (PPC) egzekwuje ustawę APPI. Nowelizacje z 2022 roku zmieniły prawo bardziej niż jakiekolwiek wcześniejsze aktualizacje. Dodały przepisy dotyczące danych pseudonimizowanych, transgranicznych transferów i zbiorów danych treningowych AI. W 2024 roku PPC wydała 45 orzeczeń. Tego samego roku opublikowała też pierwszy japoński przewodnik po prywatności AI.
Jeśli Twoja firma trenuje modele na japońskich tekstach lub przechowuje dane japońskich użytkowników, przepisy te obowiązują już teraz.
Co zmieniły nowelizacje z 2022 roku
2,4 miliona japońskich firm musiało zaktualizować zasady prywatności i przeorganizować procesy przetwarzania danych.
Informacje pseudonimizowane (仮名加工情報): Nowa kategoria pośrednia. Obejmuje dane osobowe, z których usunięto bezpośrednie identyfikatory. Ponowna identyfikacja jest nadal możliwa, jeśli posiada się klucz. Takie dane mogą być przekazywane wewnątrz organizacji bez pełnej zgody. Nie mogą trafiać do podmiotów trzecich. RODO nie przewiduje takiej kategorii.
Informacje zanonimizowane (匿名加工情報): Ponowna identyfikacja musi być technicznie niemożliwa. Musi to potwierdzić kwalifikowana strona trzecia. Japoński standard jest w tym zakresie wyższy niż RODO. RODO czyni taki przegląd opcjonalnym, APPI czyni go obowiązkowym.
Transgraniczne transfery danych: Transfery do innych krajów muszą spełniać japoński standard ochrony. PPC prowadzi listę zatwierdzonych krajów. UE znajduje się na tej liście.
Zbiory danych treningowych AI: Wytyczne PPC z 2024 roku odniosły się do tego bezpośrednio.
- Zbiory treningowe muszą być w pełni zanonimizowane lub opierać się na ważnej podstawie prawnej — zwykle zgodzie.
- Wyjątek dotyczący przetwarzania ma zastosowanie tylko wtedy, gdy model nie może identyfikować osób na podstawie swoich wyników.
- Deweloperzy modeli LLM trenujących na japońskich danych zebranych ze stron internetowych muszą wykazać ważną podstawę ich pozyskania.
Aby zapoznać się z pełnym przeglądem obowiązków związanych z transgraniczną zgodnością, odwiedź /legal/compliance.
My Number: Japoński numer krajowy
My Number (マイナンバー) to 12-cyfrowy krajowy identyfikator. Japonia wydaje go wszystkim mieszkańcom. Otrzymują go też cudzoziemcy. System działa od 2016 roku. Obejmuje podatki, ubezpieczenia społeczne i reagowanie na klęski żywiołowe.
Jak działa cyfra kontrolna: My Number używa metody Verhoeffa. Jest to matematyczny schemat kontroli błędów. Jest trudniejszy do implementacji niż algorytm Luhna — stosowany w szwedzkim personnummer i kanadyjskim SIN. Większość europejskich identyfikatorów używa prostszej matematyki modularnej.
Dlaczego wykrywanie jest trudne: Skanowanie pod kątem 12-cyfrowych ciągów nie wystarczy. Daty, kody pocztowe i numery faktur wyglądają tak samo. Do ich rozróżnienia potrzebujesz pełnej logiki Verhoeffa. Zwykłe wyrażenia regularne to za mało.
Przegląd PPC z 2024 roku ujawnił niepokojący fakt: 63% ogólnych narzędzi NLP nie wykrywa My Number w japońskich dokumentach.
Sprawdź jak anonym.legal obsługuje My Number na stronie /entities.
Trzy systemy pisma jednocześnie
Japoński używa jednocześnie hiragany, katakany i kanji. W niektórych kontekstach pojawia się też alfabet łaciński. To samo imię może wyglądać inaczej w różnych dokumentach. Narzędzia zbudowane z myślą o tekście łacińskim zawodzą na japońskim bez dodatkowego wsparcia.
Co to oznacza dla wykrywania imion:
- Japoński NER wymaga modeli trenowanych na japońskim tekście. Użyj spaCy ja_core_news.
- Japoński nie ma spacji między słowami. Segmentacja to osobny krok wymagający narzędzi dostosowanych do japońskiego.
- Imiona osób zapisywane są kanji z odczytami w hiraganie lub katakanie. Narzędzia muszą wykrywać obie formy.
- Nazwy firm (会社名, 株式会社) wymagają japońskich reguł specyficznych.
Informacje o NER dla języków z regionu APAC znajdziesz w /docs/faq.
Inne japońskie formaty identyfikatorów
Prawo jazdy: 12 cyfr z kodem prefiksu dla regionu wydania. Kody są stałe — Tokio to 10, Osaka to 62. Część regionalna jest weryfikowalna.
Paszport: Standardowy format ICAO ze specyficznymi dla Japonii zasadami wydawania.
Karta ubezpieczenia zdrowotnego (健康保険証): Symbol (記号) plus numer. Format zależy od ubezpieczyciela.
Karta pobytu (在留カード): Dla cudzoziemców mieszkających w Japonii. Format: dwie litery, osiem cyfr, dwie litery. Wydawane przez Ministerstwo Sprawiedliwości.
Status transferu danych Japonia–UE
Japonia i UE posiadają wzajemną adekwatność od 2019 roku. Dane osobowe przepływają między UE a Japonią bez dodatkowych kroków. Japonia jest jednym z nielicznych krajów spoza Europy z pełną adekwatnością UE.
Umowa obejmuje standardowe dane osobowe. Wrażliwe dane zdrowotne i dane o karalności wymagają dodatkowych zabezpieczeń nawet w ramach adekwatności. Firmy przenosząc te dane, muszą dokumentować zastosowane środki.
Przejrzyj swoje obowiązki w zakresie transferu danych na stronie /security-compliance.
Lista kontrolna zgodności z prawem japońskim
Zacznij od tego, jeśli przetwarzasz japońskie dane osobowe:
- Wykrywanie My Number z logiką cyfry kontrolnej Verhoeffa.
- Japoński NER z modelami trenowanymi na tekście japońskim — nie na modelach dla alfabetu łacińskiego.
- Obsługa form imion w kanji, hiraganie i katakanie oraz wariantów odczytów.
- Wykrywanie prawa jazdy z weryfikacją kodu regionu.
- Wykrywanie karty pobytu z logiką formatu MOJ.
- Wykrywanie karty ubezpieczenia zdrowotnego w różnych wariantach ubezpieczycieli.
- Ważna podstawa prawna dla każdego zbioru danych treningowych AI zawierającego dane osobowe.
- Przegląd przez stronę trzecią dla danych sklasyfikowanych jako zanonimizowane zgodnie z APPI.
- Dodatkowe zabezpieczenia dla wrażliwych danych przesyłanych w ramach umowy o adekwatności UE–Japonia.
Definicje terminów APPI stosowanych w tym przewodniku znajdziesz w /docs/glossary.