By · Last updated 2026-06-05

Tornar al BlogGDPR i Compliment

PPC del Japo i APPI: Compliment en Dades d'Entrenament d'IA

La PPC del Japo aplica l'APPI. Les esmenes del 2022 afecten 2,4 milions d'empreses japoneses. El My Number de 12 digits requereix validacio Verhoeff.

June 5, 202610 min llegit
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

PPC del Japo i APPI: Compliment en Dades d'Entrenament d'IA

La PPC del Japo aplica l'APPI. Les esmenes del 2022 van ser la reforma mes important de la llei fins ara. Van afegir normes per a registres pseudonimitzats, transferencies transfrontereres i conjunts d'entrenament d'IA. La PPC va emetre 45 resolucions el 2024. Aquell any tambe va publicar la primera guia de privadesa d'IA especifica per al Japo.

Si la vostra empresa entrena models amb text japones o conserva registres d'usuaris japonesos, aquestes normes us apliquen ara.

Que van canviar les esmenes del 2022

2,4 milions d'empreses japoneses van haver d'actualitzar les politiques de privadesa i revisar els processos de gestio de dades.

Informacio pseudonimitzada (仮名加工情報): Una nova categoria intermedia. Cobreix registres personals amb identificadors directes eliminats. La reidentificacio encara es possible si es te una clau. Aquests registres poden circular dins d'una organitzacio sense consentiment ple. No poden anar a tercers. El GDPR no te cap categoria equivalent.

Informacio anonimitzada (匿名加工情報): La reidentificacio ha de ser tecnicament impossible. Un tercer qualificat ho ha de confirmar. El llistro del Japo es mes alt que el del GDPR en aquest punt. El GDPR fa opcional aquesta revisio. L'APPI la exigeix.

Transferencies transfrontereres: Les transferencies a altres nacions han de complir el nivell de proteccio del Japo. La PPC manté una llista de paisos aprovats. La UE hi es.

Conjunts d'entrenament d'IA: La guia de la PPC del 2024 ho va tractar directament.

  • Els conjunts d'entrenament han d'estar completament anonimitzats o tenir una base juridica valida, normalment el consentiment.
  • L'excepcio de processament nomes s'aplica si el model no pot identificar persones a partir de les seves sortides.
  • Els desenvolupadors de LLM que entrenen amb registres japonesos extrets de llocs web han de demostrar una base de recopilacio valida.

Per a una visio completa dels deures d'alineament transfronterer, vegeu /legal/compliance.

My Number: el document d'identitat nacional del Japo

El My Number (マイナンバー) es un identificador nacional de 12 digits. El Japo l'assigna a tots els residents. Els nacionals estrangers tambe el reben. El sistema funciona des del 2016. Cobreix fiscalitat, seguretat social i resposta a emergencies.

Com funciona el digit de control: El My Number utilitza el metode Verhoeff. Es un esquema de verificacio d'errors basat en matematiques. Es mes complex de construir que Luhn, el metode usat per al personnummer suec i el SIN canadenc. La majoria de documents d'identitat europeus utilitzen matematiques modulars mes senzilles.

Per que la deteccio es dificil: Una cerca de cadenes de 12 digits fallara. Les dates, els codis postals i els codis de factura semblen iguals. Cal la logica Verhoeff completa per distingir-los. Una expressio regular simple no es suficient.

La revisio de la PPC del 2024 va revelar una dada reveladora: el 63% de les eines NLP generiques no detecten el My Number en registres japonesos.

Vegeu com anonym.legal gestiona el My Number a /entities.

Tres sistemes d'escriptura alhora

El japones utilitza hiragana, katakana i kanji alhora. L'alfabet llati apareix en alguns contextos. El mateix nom pot tenir aspectes diferents en registres distints. Les eines construides per a text en alfabet llati fallen en japones sense suport addicional.

Que significa aixo per a la deteccio de noms:

  • El NER japones necessita models entrenats amb text japones. Useu spaCy ja_core_news.
  • El japones no te espais entre paraules. La divisio de paraules es un pas propi que necessita eines especifiques per al japones.
  • Els noms de persona apareixen en kanji amb guies de lectura en hiragana o katakana. Les eines han de detectar ambdues formes.
  • Els noms d'empresa (会社名, 株式会社) necessiten normes especifiques per al Japo.

Per al NER en idiomes de l'APAC, vegeu /docs/faq.

Altres formats d'identificacio japonesos

Permis de conduccio: 12 digits amb un codi de prefix per a la regio d'emissio. Els codis son fixos: Tokio es 10, Osaka es 62. La part de la regio es verificable.

Passaport: Format ICAO estandard amb normes d'emissio especifiques del Japo.

Targeta d'asseguranca medica (健康保険証): Simbol (記号) mes numero. El format varia segons l'assegurador.

Targeta de residencia (在留カード): Per a residents estrangers. Format: dues lletres, vuit digits, dues lletres. L'emet el Ministeri de Justicia.

Estat de les transferencies de dades entre el Japo i la UE

El Japo i la UE tenen adequacio mutua des del 2019. Els registres personals circulen entre la UE i el Japo sense passos addicionals. El Japo es un dels pocs paisos no europeus amb adequacio plena de la UE.

L'acord cobreix registres personals estandard. Els registres de salut sensibles i d'historial penal necessiten salvaguardes addicionals fins i tot sota l'adequacio. Les empreses que traslladen aquests registres han de documentar les mesures addicionals que utilitzen.

Reviseu els vostres deures de transferencia a /security-compliance.

La vostra llista de control per al compliment al Japo

Comencu aqui si gestioneu registres personals japonesos:

  • Deteccio del My Number amb logica de digit de control Verhoeff.
  • NER japones amb models entrenats en text en escriptura japonesa, no models per a alfabet llati.
  • Suport per a noms en kanji, hiragana i katakana mes variants amb guies de lectura.
  • Deteccio del permis de conduccio amb verificacions del codi de regio.
  • Deteccio de la targeta de residencia amb la logica de format del Ministeri de Justicia.
  • Deteccio de la targeta d'asseguranca medica a traves de variants d'assegurador.
  • Una base juridica valida per a cada conjunt d'entrenament d'IA que conte registres personals.
  • Revisio de tercers per a qualsevol registre classificat com a anonimitzat sota l'APPI.
  • Salvaguardes addicionals per als registres sensibles que circulen sota l'acord d'adequacio UE-Japo.

Vegeu /docs/glossary per a les definicions dels termes de l'APPI usats en aquesta guia.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.