By · Last updated 2026-06-05

Til baka á BloggGDPR & Samræmi

Japan PPC og APPI: Samræmi við gervigreind og þjálfunargögn

PPC Japan framfylgir APPI. Breytingar 2022 náðu til 2,4 milljóna japansks fyrirtækja. My Number, 12 stafa kennitala, krefst Verhoeff-villuleitarreiknirits.

June 5, 202610 mín lestur
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

Japan PPC og APPI: Samræmi við þjálfunargögn gervigreindar

PPC Japan framfylgir APPI. Breytingar frá 2022 breyttu lögunum meira en nokkrar fyrri uppfærslur. Þær bættu við reglum um dulgerðarskráningar, milliríkjaflutninga og þjálfunargögnasöfn gervigreindar. PPC gaf út 45 úrskurði árið 2024. Sama ár birti stofnunin fyrstu gervigreindarleiðbeiningarnar um friðhelgi einkalífsins sem taka mið af Japan sérstaklega.

Ef fyrirtæki þitt þjálfar líkön á japönskum texta eða geymir gögn japansks notanda, gilda þessar reglur núna.

Hvað breytingarnar 2022 breyttu

2,4 milljónum japanskra fyrirtækja þurfti að uppfæra persónuverndarstefnur og endurskoða meðhöndlunarferli.

Dulgerðarskráningar (仮名加工情報): Ný milliflokkar. Nær yfir persónugögn þar sem bein auðkenni hafa verið fjarlægð. Endurauðkenning er enn möguleg ef lykill er til staðar. Þessar skráningar mega flytjast innan stofnunar án fulls samþykkis. Þær mega ekki fara til þriðja aðila. GDPR hefur engan slíkan flokk.

Nafnlausar skráningar (匿名加工情報): Endurauðkenning verður að vera tæknilega ómöguleg. Hæfur þriðji aðili verður að staðfesta þetta. Kröfur Japan eru strangari en GDPR að þessu leyti. GDPR gerir slíka endurskoðun valkvæða. APPI gerir hana skyldu.

Milliríkjaflutningar: Flutningur til annarra landa verður að uppfylla verndarviðmið Japan. PPC heldur lista yfir samþykkt lönd. ESB er á þeim lista.

Þjálfunargögnasöfn gervigreindar: PPC-leiðbeiningar frá 2024 fjalla beint um þetta.

  • Þjálfunargögnasöfn verða að vera að fullu nafnlaus eða hvíla á gildri lagalegri heimild — venjulega samþykki.
  • Undanþágan um vinnslu gildir aðeins ef líkanið getur ekki auðkennt einstaklinga útfrá úttaki sínu.
  • Þróunaraðilar LLM sem þjálfa á japönskum gögnum af vefsíðum verða að sýna fram á gildar heimildir til söfnunar.

Sjá heildaryfirlit yfir skyldur vegna milliríkjasamræmis á /legal/compliance.

My Number: Þjóðarkennitala Japans

My Number (マイナンバー) er 12 stafa þjóðarkennitala. Japan gefur hana öllum íbúum. Erlendir þegnar fá hana líka. Kerfið er virkt frá 2016. Það nær yfir skatta, almannatryggingar og viðbragðsaðgerðir vegna hamfara.

Hvernig eftirlitsstafurinn virkar: My Number notar Verhoeff-aðferðina. Þetta er stærðfræðileg villuleitaraðferð. Hún er flóknari að smíða en Luhn — aðferðin sem notuð er fyrir sænska personnummer og kanadíska SIN. Flest evrópsk auðkenni nota einfaldari módular stærðfræði.

Af hverju greining er erfið: Leit að 12 stafa strengjum mun gefa ranga niðurstöðu. Dagsetningar, póstnúmer og reikningsnúmer líta öll eins út. Þú þarft alla Verhoeff-rökfræðina til að greina þau. Einföld regex dugir ekki.

Úrskurður PPC 2024 var sláandi. 63% almennra NLP-verkfæra ná ekki að greina My Number í japönskum gögnum.

Sjá hvernig anonym.legal meðhöndlar My Number á /entities.

Þrjár ritkerfi samtímis

Japanska notar Hiragana, Katakana og Kanji samtímis. Rómantískar bókstafir koma líka fyrir í ákveðnum samhengi. Sama nafnið getur litið öðruvísi út eftir gögnum. Verkfæri sem eru smíðuð fyrir latneskan texta bila á japönsku án sérstaks stuðnings.

Hvað þetta þýðir fyrir nafnagreiningu:

  • Japönskur NER þarf líkön þjálfuð á japönskum texta. Nota spaCy ja_core_news.
  • Japanska hefur engin bil á milli orða. Orðaklofning er sérstakt skref sem þarf japanskt verkfæri.
  • Persónunöfn koma fram á Kanji með lesgreiningu á Hiragana eða Katakana. Verkfæri verða að fanga báðar myndir.
  • Fyrirtækjanöfn (会社名, 株式会社) þarfnast Japan-sértækra reglna.

Sjá NER yfir APAC-tungumál á /docs/faq.

Aðrir japanskir auðkennissnið

Ökuskírteini: 12 stafir með forskeytiskóða fyrir útgáfulanda. Kóðar eru fastir — Tokyo er 10, Osaka er 62. Svæðishlutinn er hægt að staðfesta.

Vegabréf: Staðlað ICAO-snið með japönskum útgáfureglum.

Sjúkratryggingarkort (健康保険証): Tákn (記号) plús númer. Snið er mismunandi eftir tryggingafélagi.

Búsetukorðt (在留カード): Fyrir erlenda búseta. Snið: tveir bókstafir, átta tölur, tveir bókstafir. Dómsmálaráðuneyti gefur þau út.

Staðan í gagnaskiptum Japan-ESB

Japan og ESB hafa haft gagnkvæmt fullnægi frá 2019. Persónugögn flæða milli ESB og Japan án viðbótarskrefa. Japan er eitt fárra ríkja utan Evrópu með fullt ESB-fullnægi.

Samningurinn nær yfir venjuleg persónugögn. Viðkvæm heilsugögn og sakaskrárfærslur þarfnast viðbótarverndar jafnvel með fullnægi. Fyrirtæki sem flyja þessi gögn verða að skrá þær viðbótarráðstafanir sem þau nota.

Farðu yfir flutningsskyldurnar á /security-compliance.

Gátlisti yfir Japan-samræmi

Hér er gott að byrja ef þú meðhöndlar japönsk persónugögn:

  • My Number-greining með Verhoeff-eftirlitsstafar-rökfræði.
  • Japönskur NER með líkön þjálfuð á japönskum texta — ekki latneskar líkön.
  • Stuðningur við Kanji, Hiragana og Katakana nafnmyndir og lesgreiningu.
  • Ökuskírteini-greining með svæðiskóðaprófun.
  • Búsetu-korta-greining með MOJ-snið-rökfræði.
  • Sjúkratryggingakorts-greining yfir útgefendavíddir.
  • Gild lagaleg heimild fyrir hvert þjálfunargagnasafn sem geymir persónugögn.
  • Þriðja aðila endurskoðun fyrir allar skráningar flokkaðar sem nafnlausar samkvæmt APPI.
  • Viðbótarvernd fyrir viðkvæmar skráningar sem fluttar eru samkvæmt ESB-Japan fullnægissamningnum.

Sjá /docs/glossary fyrir APPI-hugtakaskýringar notaðar í þessari handbók.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.