By · Last updated 2026-06-05

返回博客GDPR 与合规

日本PPC与APPI:AI训练数据合规

日本个人信息保护委员会(PPC)执行2022年修订版APPI,覆盖240万家日本企业。我的号码(My Number)12位身份证号须进行Verhoeff算法校验。

June 5, 202610 分钟阅读
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

日本PPC与APPI:AI训练数据合规

日本个人信息保护委员会(PPC)负责执行《个人信息保护法》(APPI)。2022年修订案是该法律历史上修改幅度最大的一次,新增了假名化信息、跨境数据传输和AI训练数据集的相关规则。PPC在2024年发布了45项裁决,并于同年发布了首份日本专项AI隐私指南。

如果贵公司使用日语文本训练模型或持有日本用户数据,上述规则已对贵公司产生直接约束力。

2022年修订案的核心变化

全日本240万家企业须更新隐私规则并改造数据处理流程。

**假名化信息(仮名加工情報):**新设的中间类别,指删除了直接标识符但仍可通过密钥重新识别的个人信息。此类信息可在组织内部流转而无需完整同意,但不得提供给第三方。GDPR无此类别。

**匿名化信息(匿名加工情報):**技术上须做到无法重新识别,且须经过具备资质的第三方认证。日本的门槛高于GDPR——GDPR将此类审查设为选项,APPI则将其列为强制要求。

**跨境数据传输:**向其他国家传输数据须达到日本的保护标准。PPC维护一份已批准国家名单,欧盟已列入其中。

**AI训练数据集:**PPC于2024年发布的指南对此作出明确规定:

  • 训练数据集须完全匿名化,或须具备有效的合法依据(通常为同意)。
  • 处理豁免仅适用于模型无法从输出结果中识别个人身份的情形。
  • 基于网络爬取日语内容训练LLM的开发者须证明其具备合法的数据收集依据。

有关跨境合规义务的全面梳理,请访问 /legal/compliance

我的号码:日本国家身份标识

我的号码(マイナンバー)是一个12位数字的国家身份标识,面向日本所有居民发放,外籍居民同样持有。该系统自2016年起运行,涵盖税务、社会保障和灾害救援领域。

**校验位原理:**我的号码采用Verhoeff算法进行校验,这是一种基于数学原理的错误检测方案,构建难度高于瑞典personnummer和加拿大SIN所使用的Luhn算法,也比大多数欧洲身份证号码所采用的简单模运算更为复杂。

**检测难点:**仅扫描12位数字串的工具容易出现误判。日期、邮政编码和发票编号在外观上与我的号码高度相似,须具备完整的Verhoeff逻辑才能加以区分,单纯的正则表达式远远不够。

PPC 2024年审查结果触目惊心:63%的通用NLP工具无法在日语文件中有效检测到我的号码。

了解anonym.legal如何处理我的号码,请访问 /entities

三种文字系统的并存挑战

日语同时使用平假名、片假名和汉字,部分场合还会出现罗马字。同一人名在不同文件中可能呈现不同书写形式。专为拉丁字母文本构建的工具在日语处理上存在天然局限。

对姓名检测的具体影响:

  • 日语命名实体识别(NER)须使用在日语文本上训练的模型,推荐使用spaCy的ja_core_news系列模型。
  • 日语词语之间没有空格,分词是独立的处理步骤,须使用日语专用工具。
  • 人名以汉字书写,读音标注以平假名或片假名呈现,工具须同时识别两种形式。
  • 企业名称(会社名、株式会社等)须使用日本特定规则进行识别。

有关亚太地区语言的NER处理,请参阅 /docs/faq

其他日本身份证明格式

**驾驶证:**12位数字,带有发证地区前缀代码,各地区代码固定——东京为10,大阪为62,可进行地区验证。

**护照:**遵循ICAO国际标准,并设有日本特定的签发规则。

**健康保险证(健康保険証):**由记号(記号)加号码组成,格式因保险公司不同而有所差异。

**在留卡:**面向外籍居民,格式为两个字母、八位数字、两个字母,由法务省颁发。

日欧数据传输现状

日本与欧盟自2019年起实现相互充分性认定,个人数据可在双方之间自由流转,无需额外手续。日本是极少数获得欧盟完整充分性认定的非欧洲国家之一。

充分性协议覆盖标准个人数据。即便在充分性框架下,敏感健康数据和犯罪记录的传输仍须采取额外保障措施,相关企业须记录所采用的附加措施。

请在 /security-compliance 查看您的数据传输合规义务。

日本合规清单

如果贵公司处理日本个人数据,请从以下事项入手:

  • 具备Verhoeff校验逻辑的我的号码检测能力。
  • 使用在日语文本(而非拉丁字母文本)上训练的模型进行日语NER。
  • 支持汉字、平假名和片假名姓名形式及读音标注变体。
  • 具备地区代码校验的驾驶证检测。
  • 符合法务省格式规范的在留卡检测。
  • 支持各保险公司变体的健康保险证检测。
  • 每个含有个人信息的AI训练数据集须具备有效的合法依据。
  • APPI匿名化信息须经第三方审查。
  • 在欧日充分性协议框架下传输的敏感数据须采取额外保障措施。

有关本指南所用APPI术语的定义,请参阅 /docs/glossary

参考来源

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.