Japonský PPC a APPI: soulad AI trénovacích dat
Japonský PPC vymáhá zákon APPI. Novely z roku 2022 změnily zákon více než jakákoli předchozí aktualizace. Přidaly pravidla pro pseudonymizované záznamy, přeshraniční přenosy a AI trénovací sady. PPC vydal v roce 2024 celkem 45 rozhodnutí a téhož roku zveřejnil první japonský průvodce ochranou soukromí v oblasti AI.
Pokud vaše firma trénuje modely na japonských textech nebo uchovává záznamy japonských uživatelů, tato pravidla se na vás vztahují již nyní.
Co změnily novely z roku 2022
2,4 milionu japonských firem muselo aktualizovat zásady ochrany soukromí a přepracovat postupy zpracování dat.
Pseudonymizované informace (仮名加工情報): Nová střední kategorie. Zahrnuje osobní záznamy, z nichž byly odstraněny přímé identifikátory. Opětovná identifikace je stále možná, pokud máte klíč. Tyto záznamy mohou být předávány v rámci organizace bez plného souhlasu. Nemohou být předány třetím stranám. GDPR takovouto kategorii nezná.
Anonymizované informace (匿名加工情報): Opětovná identifikace musí být technicky nemožná. Musí to potvrdit kvalifikovaná třetí strana. Japonská laťka je v tomto bodě nastavena výše než GDPR. GDPR toto přezkoumání ponechává volitelné, APPI ho vyžaduje povinně.
Přeshraniční přenosy: Přenosy do jiných zemí musí splňovat japonský standard ochrany. PPC vede seznam schválených zemí. EU je na tomto seznamu.
AI trénovací sady: Pokyny PPC z roku 2024 se tomu věnují přímo.
- Trénovací sady musí být plně anonymizovány nebo musí mít platný právní základ — zpravidla souhlas.
- Výjimka pro zpracování platí pouze tehdy, pokud model nemůže z výstupů identifikovat osoby.
- Vývojáři LLM, kteří trénují na japonských záznamech získaných z webových stránek, musí prokázat platný základ pro sběr dat.
Úplný přehled povinností při přeshraničním předávání viz /legal/compliance.
My Number: japonský národní identifikátor
My Number (マイナンバー) je 12místný národní identifikátor. Japonsko ho přiděluje všem obyvatelům, včetně cizinců. Systém funguje od roku 2016 a pokrývá oblast daní, sociálního zabezpečení a krizového řízení.
Jak funguje kontrolní číslice: My Number využívá Verhoeffovu metodu — matematický schéma pro ověření chyb. Je složitější na sestavení než metoda Luhn, která se používá pro švédský personnummer a kanadský SIN. Většina evropských identifikátorů používá jednodušší modulární matematiku.
Proč je detekce obtížná: Hledání 12místných řetězců nestačí. Stejně vypadají data, PSČ i čísla faktur. K jejich rozlišení je nutná plná Verhoeffova logika. Jednoduchý regulární výraz nestačí.
Přezkoumání PPC z roku 2024 přineslo výrazné zjištění: 63 % obecných NLP nástrojů nedokáže detekovat My Number v japonských záznamech.
Zjistěte, jak s číslem My Number pracuje anonym.legal, na /entities.
Tři písemné systémy najednou
Japonština využívá současně hiraganu, katakanu a kandži. V některých kontextech se objevuje i latinka. Stejné jméno může mít v různých záznamech odlišnou podobu. Nástroje určené pro texty v latinkovém písmu selhávají na japonštině bez speciální podpory.
Co to znamená pro detekci jmen:
- Japonský NER potřebuje modely trénované na japonských textech. Používejte spaCy ja_core_news.
- Japonština nemá mezery mezi slovy. Segmentace slov je samostatný krok, který vyžaduje jazykově specifické nástroje.
- Osobní jména se zapisují v kandži s čtecími vodítky v hiraganě nebo katakaně. Nástroje musí zachytit obě formy.
- Názvy firem (会社名, 株式会社) vyžadují japonsky specifická pravidla.
Informace o NER napříč jazyky APAC viz /docs/faq.
Další japonské formáty identifikátorů
Řidičský průkaz: 12 číslic s prefixovým kódem pro region vydání. Kódy jsou pevné — Tokio je 10, Ósaka je 62. Část odpovídající regionu je ověřitelná.
Cestovní pas: Standardní formát ICAO s japonskými pravidly vydávání.
Průkaz zdravotního pojištění (健康保険証): Symbol (記号) a číslo. Formát se liší podle pojišťovny.
Průkaz pobytu (在留カード): Pro zahraniční rezidenty. Formát: dvě písmena, osm číslic, dvě písmena. Vydává ho Ministerstvo spravedlnosti.
Status přenosu dat Japonsko–EU
Japonsko a EU mají vzájemnou adekvaci od roku 2019. Osobní záznamy mohou mezi EU a Japonskem proudit bez dalších kroků. Japonsko je jednou z mála neevropských zemí s plnou adekvací EU.
Dohoda se vztahuje na standardní osobní záznamy. Citlivé zdravotní záznamy a záznamy o trestní historii vyžadují dodatečné záruky i v rámci adekvace. Firmy, které tyto záznamy přenášejí, musí dokumentovat přijatá dodatečná opatření.
Přezkoumejte své přenosové povinnosti na /security-compliance.
Kontrolní seznam pro soulad s japonskými předpisy
Začněte zde, pokud zpracováváte japonské osobní záznamy:
- Detekce My Number s Verhoeffovou logikou kontrolní číslice.
- Japonský NER s modely trénovanými na japonském písmu — ne modely pro latinku.
- Podpora forem jmen v kandži, hiraganě a katakaně včetně variant čtecích vodítek.
- Detekce řidičského průkazu s ověřením regionálního kódu.
- Detekce průkazu pobytu s logikou formátu MOJ.
- Detekce průkazu zdravotního pojištění napříč variantami pojišťoven.
- Platný právní základ pro každou AI trénovací sadu obsahující osobní záznamy.
- Přezkoumání třetí stranou pro záznamy klasifikované jako anonymizované podle APPI.
- Dodatečné záruky pro citlivé záznamy přenášené v rámci dohody EU–Japonsko o adekvaci.
Definice pojmů APPI použitých v tomto průvodci viz /docs/glossary.