By · Last updated 2026-06-05

Zpět na blogGDPR a shoda

Japonský PPC a APPI: soulad AI trénovacích dat

Japonský PPC vymáhá zákon APPI ve znění novel z roku 2022 — vztahuje se na 2,4 milionu japonských podniků. Identifikátor My Number (12 číslic) vyžaduje Verhoeffovu validaci.

June 5, 202610 min čtení
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

Japonský PPC a APPI: soulad AI trénovacích dat

Japonský PPC vymáhá zákon APPI. Novely z roku 2022 změnily zákon více než jakákoli předchozí aktualizace. Přidaly pravidla pro pseudonymizované záznamy, přeshraniční přenosy a AI trénovací sady. PPC vydal v roce 2024 celkem 45 rozhodnutí a téhož roku zveřejnil první japonský průvodce ochranou soukromí v oblasti AI.

Pokud vaše firma trénuje modely na japonských textech nebo uchovává záznamy japonských uživatelů, tato pravidla se na vás vztahují již nyní.

Co změnily novely z roku 2022

2,4 milionu japonských firem muselo aktualizovat zásady ochrany soukromí a přepracovat postupy zpracování dat.

Pseudonymizované informace (仮名加工情報): Nová střední kategorie. Zahrnuje osobní záznamy, z nichž byly odstraněny přímé identifikátory. Opětovná identifikace je stále možná, pokud máte klíč. Tyto záznamy mohou být předávány v rámci organizace bez plného souhlasu. Nemohou být předány třetím stranám. GDPR takovouto kategorii nezná.

Anonymizované informace (匿名加工情報): Opětovná identifikace musí být technicky nemožná. Musí to potvrdit kvalifikovaná třetí strana. Japonská laťka je v tomto bodě nastavena výše než GDPR. GDPR toto přezkoumání ponechává volitelné, APPI ho vyžaduje povinně.

Přeshraniční přenosy: Přenosy do jiných zemí musí splňovat japonský standard ochrany. PPC vede seznam schválených zemí. EU je na tomto seznamu.

AI trénovací sady: Pokyny PPC z roku 2024 se tomu věnují přímo.

  • Trénovací sady musí být plně anonymizovány nebo musí mít platný právní základ — zpravidla souhlas.
  • Výjimka pro zpracování platí pouze tehdy, pokud model nemůže z výstupů identifikovat osoby.
  • Vývojáři LLM, kteří trénují na japonských záznamech získaných z webových stránek, musí prokázat platný základ pro sběr dat.

Úplný přehled povinností při přeshraničním předávání viz /legal/compliance.

My Number: japonský národní identifikátor

My Number (マイナンバー) je 12místný národní identifikátor. Japonsko ho přiděluje všem obyvatelům, včetně cizinců. Systém funguje od roku 2016 a pokrývá oblast daní, sociálního zabezpečení a krizového řízení.

Jak funguje kontrolní číslice: My Number využívá Verhoeffovu metodu — matematický schéma pro ověření chyb. Je složitější na sestavení než metoda Luhn, která se používá pro švédský personnummer a kanadský SIN. Většina evropských identifikátorů používá jednodušší modulární matematiku.

Proč je detekce obtížná: Hledání 12místných řetězců nestačí. Stejně vypadají data, PSČ i čísla faktur. K jejich rozlišení je nutná plná Verhoeffova logika. Jednoduchý regulární výraz nestačí.

Přezkoumání PPC z roku 2024 přineslo výrazné zjištění: 63 % obecných NLP nástrojů nedokáže detekovat My Number v japonských záznamech.

Zjistěte, jak s číslem My Number pracuje anonym.legal, na /entities.

Tři písemné systémy najednou

Japonština využívá současně hiraganu, katakanu a kandži. V některých kontextech se objevuje i latinka. Stejné jméno může mít v různých záznamech odlišnou podobu. Nástroje určené pro texty v latinkovém písmu selhávají na japonštině bez speciální podpory.

Co to znamená pro detekci jmen:

  • Japonský NER potřebuje modely trénované na japonských textech. Používejte spaCy ja_core_news.
  • Japonština nemá mezery mezi slovy. Segmentace slov je samostatný krok, který vyžaduje jazykově specifické nástroje.
  • Osobní jména se zapisují v kandži s čtecími vodítky v hiraganě nebo katakaně. Nástroje musí zachytit obě formy.
  • Názvy firem (会社名, 株式会社) vyžadují japonsky specifická pravidla.

Informace o NER napříč jazyky APAC viz /docs/faq.

Další japonské formáty identifikátorů

Řidičský průkaz: 12 číslic s prefixovým kódem pro region vydání. Kódy jsou pevné — Tokio je 10, Ósaka je 62. Část odpovídající regionu je ověřitelná.

Cestovní pas: Standardní formát ICAO s japonskými pravidly vydávání.

Průkaz zdravotního pojištění (健康保険証): Symbol (記号) a číslo. Formát se liší podle pojišťovny.

Průkaz pobytu (在留カード): Pro zahraniční rezidenty. Formát: dvě písmena, osm číslic, dvě písmena. Vydává ho Ministerstvo spravedlnosti.

Status přenosu dat Japonsko–EU

Japonsko a EU mají vzájemnou adekvaci od roku 2019. Osobní záznamy mohou mezi EU a Japonskem proudit bez dalších kroků. Japonsko je jednou z mála neevropských zemí s plnou adekvací EU.

Dohoda se vztahuje na standardní osobní záznamy. Citlivé zdravotní záznamy a záznamy o trestní historii vyžadují dodatečné záruky i v rámci adekvace. Firmy, které tyto záznamy přenášejí, musí dokumentovat přijatá dodatečná opatření.

Přezkoumejte své přenosové povinnosti na /security-compliance.

Kontrolní seznam pro soulad s japonskými předpisy

Začněte zde, pokud zpracováváte japonské osobní záznamy:

  • Detekce My Number s Verhoeffovou logikou kontrolní číslice.
  • Japonský NER s modely trénovanými na japonském písmu — ne modely pro latinku.
  • Podpora forem jmen v kandži, hiraganě a katakaně včetně variant čtecích vodítek.
  • Detekce řidičského průkazu s ověřením regionálního kódu.
  • Detekce průkazu pobytu s logikou formátu MOJ.
  • Detekce průkazu zdravotního pojištění napříč variantami pojišťoven.
  • Platný právní základ pro každou AI trénovací sadu obsahující osobní záznamy.
  • Přezkoumání třetí stranou pro záznamy klasifikované jako anonymizované podle APPI.
  • Dodatečné záruky pro citlivé záznamy přenášené v rámci dohody EU–Japonsko o adekvaci.

Definice pojmů APPI použitých v tomto průvodci viz /docs/glossary.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.