By · Last updated 2026-06-05

Atgal į BlogąGDPR ir Atitiktis

Japonijos PPC APPI: dirbtinio intelekto mokymo duomenų atitiktis

Japonijos PPC vykdo APPI 2022 m. pakeitimų reikalavimus, apimančius 2,4 mln. Japonijos įmonių. My Number 12 skaitmenų ID reikalauja Verhoeff tikrinimo.

June 5, 202610 min skaityti
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

Japonijos PPC ir APPI: dirbtinio intelekto mokymo duomenų atitiktis

Japonijos PPC vykdo APPI reikalavimus. 2022 m. pakeitimai pakeitė įstatymą labiau nei bet kurie ankstesni. Jie pridėjo taisykles dėl pseudonimizuotų įrašų, tarpvalstybinių perdavimų ir DI mokymo rinkinių. PPC 2024 m. priėmė 45 sprendimus. Tais metais ji taip pat paskelbė pirmąjį Japonijai skirtą DI privatumo vadovą.

Jei jūsų įmonė moko modelius su japonų tekstu arba saugo japonų naudotojų įrašus, šios taisyklės galioja jau dabar.

Ką pakeitė 2022 m. pakeitimai

2,4 milijono Japonijos įmonių turėjo atnaujinti privatumo taisykles ir pakeisti tvarkymo procedūras.

Pseudonimizuota informacija (仮名加工情報): Nauja vidurinė kategorija. Ji apima asmeninius įrašus, iš kurių pašalinti tiesioginiai identifikatoriai. Pakartotinis identifikavimas vis dar įmanomas, jei turite raktą. Šie įrašai gali judėti organizacijos viduje be visiško sutikimo. Jie negali būti perduoti trečiosioms šalims. BDAR tokios kategorijos neturi.

Anonimizuota informacija (匿名加工情報): Pakartotinis identifikavimas turi būti techniškai neįmanomas. Tai turi patvirtinti kvalifikuota trečioji šalis. Japonijos baras yra aukštesnis nei BDAR šiuo klausimu. BDAR tokią peržiūrą daro neprivalomą. APPI ją daro privalomą.

Tarpvalstybiniai perdavimai: Perdavimai į kitas šalis turi atitikti Japonijos apsaugos standartą. PPC tvarko patvirtintų šalių sąrašą. ES yra tame sąraše.

DI mokymo rinkiniai: PPC 2024 m. gairės tiesiogiai apėmė šią sritį.

  • Mokymo rinkiniai turi būti visiškai anonimizuoti arba remtis tinkamu teisiniu pagrindu - paprastai sutikimu.
  • Apdorojimo išimtis taikoma tik tada, kai modelis negali identifikuoti asmenų iš savo rezultatų.
  • LLM kūrėjai, mokantys modelius su iš svetainių nuskaitytais japonų įrašais, turi pademonstruoti tinkamą rinkimo pagrindą.

Visapusiškam tarpvalstybinių atitikties pareigų vaizdui žr. /legal/compliance.

My Number: Japonijos nacionalinis ID

My Number (マイナンバー) yra 12 skaitmenų nacionalinis ID. Japonija jį išduoda visiems gyventojams. Užsienio piliečiai taip pat jį gauna. Sistema veikia nuo 2016 m. Ji apima mokesčius, socialinę apsaugą ir reagavimą į nelaimes.

Kaip veikia tikrinimo skaitmuo: My Number naudoja Verhoeff metodą. Tai matematine grįsta klaidų tikrinimo schema. Ji sunkiau kuriama nei Luhn - metodas, naudojamas Švedijos personnummer ir Kanados SIN. Dauguma Europos ID naudoja paprastesnę modulinę matematiką.

Kodėl aptikimas yra sunkus: 12 skaitmenų eilučių paieška nepasiekia tikslo. Datos, pašto kodai ir sąskaitų faktūrų kodai atrodo vienodai. Reikia visos Verhoeff logikos, kad juos išskirtumėte. Paprastas regex nepakankamas.

PPC 2024 m. peržiūra turėjo ryškų atradimą. 63 % bendrųjų NLP įrankių neaptinka My Number japonų įrašuose.

Sužinokite, kaip anonym.legal tvarko My Number adresu /entities.

Trys rašymo sistemos vienu metu

Japonų kalba naudoja Hiragana, Katakana ir Kanji vienu metu. Romėniška raštija kai kuriuose kontekstuose taip pat pasirodo. To paties vardo rašyba gali skirtis skirtinguose įrašuose. Lotynų rašmenims skirti įrankiai nepavyksta su japonų kalba be papildomos paramos.

Ką tai reiškia vardų aptikimui:

  • Japonų NER reikia modelių, apmokytų su japonų tekstu. Naudokite spaCy ja_core_news.
  • Japonų kalboje tarp žodžių nėra tarpų. Žodžių skaidymas yra atskiras žingsnis. Jam reikia Japonijai pritaikytų įrankių.
  • Asmenų vardai rodomi Kanji su skaitymo nuorodomis Hiragana arba Katakana. Įrankiai turi fiksuoti abi formas.
  • Įmonių pavadinimai (会社名, 株式会社) reikalauja Japonijai specifinių taisyklių.

NER skirtingoms APAC kalboms žr. /docs/faq.

Kiti Japonijos ID formatai

Vairuotojo pažymėjimas: 12 skaitmenų su priešdėlio kodu išdavimo regionui. Kodai yra fiksuoti - Tokijas yra 10, Osaka yra 62. Regiono dalį galima patikrinti.

Pasas: Standartinis ICAO formatas su Japonijai specifinėmis išdavimo taisyklėmis.

Sveikatos draudimo kortelė (健康保険証): Simbolis (記号) ir numeris. Formatas skiriasi priklausomai nuo draudiko.

Gyventojo kortelė (在留カード): Užsienio gyventojams. Formatas: dvi raidės, aštuoni skaitmenys, dvi raidės. Jas išduoda Teisingumo ministerija.

Japonijos ir ES duomenų perdavimo statusas

Japonija ir ES turi abipusį tinkamumą nuo 2019 m. Asmeniniai įrašai juda tarp ES ir Japonijos be papildomų žingsnių. Japonija yra viena iš labai nedaugelio ne Europos šalių, turinčių visišką ES tinkamumą.

Susitarimas apima standartinius asmeninius įrašus. Jautriems sveikatos ir baudžiamosios istorijos įrašams reikia papildomų apsaugos priemonių net esant tinkamumui. Įmonės, perduodančios šiuos įrašus, turi užregistruoti papildomus naudojamus žingsnius.

Patikrinkite savo perdavimo pareigas adresu /security-compliance.

Japonijos atitikties kontrolinis sąrašas

Pradėkite čia, jei tvarkote japonų asmeninius įrašus:

  • My Number aptikimas su Verhoeff tikrinimo skaitmens logika.
  • Japonų NER su modeliais, apmokytais su japonų rašto tekstu - ne lotynų rašto modeliais.
  • Kanji, Hiragana ir Katakana vardų formų ir skaitymo nurodymų variantų palaikymas.
  • Vairuotojo pažymėjimo aptikimas su regiono kodo tikrinimais.
  • Gyventojo kortelės aptikimas su Teisingumo ministerijos formato logika.
  • Sveikatos draudimo kortelės aptikimas visų draudikų variantuose.
  • Tinkamas teisinis pagrindas kiekvienam DI mokymo rinkiniui, kuriame yra asmeninių įrašų.
  • Trečiosios šalies peržiūra visiems įrašams, klasifikuotiems kaip anonimizuoti pagal APPI.
  • Papildomos apsaugos priemonės jautriems įrašams, judantiems pagal ES ir Japonijos tinkamumo susitarimą.

Žr. /docs/glossary APPI terminų apibrėžimų, naudojamų šiame vadove.

Šaltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.