日本PPC与APPI：AI训练数据合规

日本个人信息保护委员会（PPC）负责执行《个人信息保护法》（APPI）。2022年修订案是该法律历史上修改幅度最大的一次，新增了假名化信息、跨境数据传输和AI训练数据集的相关规则。PPC在2024年发布了45项裁决，并于同年发布了首份日本专项AI隐私指南。

如果贵公司使用日语文本训练模型或持有日本用户数据，上述规则已对贵公司产生直接约束力。

2022年修订案的核心变化

全日本240万家企业须更新隐私规则并改造数据处理流程。

**假名化信息（仮名加工情報）：**新设的中间类别，指删除了直接标识符但仍可通过密钥重新识别的个人信息。此类信息可在组织内部流转而无需完整同意，但不得提供给第三方。GDPR无此类别。

**匿名化信息（匿名加工情報）：**技术上须做到无法重新识别，且须经过具备资质的第三方认证。日本的门槛高于GDPR——GDPR将此类审查设为选项，APPI则将其列为强制要求。

**跨境数据传输：**向其他国家传输数据须达到日本的保护标准。PPC维护一份已批准国家名单，欧盟已列入其中。

**AI训练数据集：**PPC于2024年发布的指南对此作出明确规定：

训练数据集须完全匿名化，或须具备有效的合法依据（通常为同意）。
处理豁免仅适用于模型无法从输出结果中识别个人身份的情形。
基于网络爬取日语内容训练LLM的开发者须证明其具备合法的数据收集依据。

有关跨境合规义务的全面梳理，请访问 /legal/compliance。

我的号码：日本国家身份标识

我的号码（マイナンバー）是一个12位数字的国家身份标识，面向日本所有居民发放，外籍居民同样持有。该系统自2016年起运行，涵盖税务、社会保障和灾害救援领域。

**校验位原理：**我的号码采用Verhoeff算法进行校验，这是一种基于数学原理的错误检测方案，构建难度高于瑞典personnummer和加拿大SIN所使用的Luhn算法，也比大多数欧洲身份证号码所采用的简单模运算更为复杂。

**检测难点：**仅扫描12位数字串的工具容易出现误判。日期、邮政编码和发票编号在外观上与我的号码高度相似，须具备完整的Verhoeff逻辑才能加以区分，单纯的正则表达式远远不够。

PPC 2024年审查结果触目惊心：63%的通用NLP工具无法在日语文件中有效检测到我的号码。

了解anonym.legal如何处理我的号码，请访问 /entities。

三种文字系统的并存挑战

日语同时使用平假名、片假名和汉字，部分场合还会出现罗马字。同一人名在不同文件中可能呈现不同书写形式。专为拉丁字母文本构建的工具在日语处理上存在天然局限。

对姓名检测的具体影响：

日语命名实体识别（NER）须使用在日语文本上训练的模型，推荐使用spaCy的ja_core_news系列模型。
日语词语之间没有空格，分词是独立的处理步骤，须使用日语专用工具。
人名以汉字书写，读音标注以平假名或片假名呈现，工具须同时识别两种形式。
企业名称（会社名、株式会社等）须使用日本特定规则进行识别。

有关亚太地区语言的NER处理，请参阅 /docs/faq。

其他日本身份证明格式

**驾驶证：**12位数字，带有发证地区前缀代码，各地区代码固定——东京为10，大阪为62，可进行地区验证。

**护照：**遵循ICAO国际标准，并设有日本特定的签发规则。

**健康保险证（健康保険証）：**由记号（記号）加号码组成，格式因保险公司不同而有所差异。

**在留卡：**面向外籍居民，格式为两个字母、八位数字、两个字母，由法务省颁发。

日欧数据传输现状

日本与欧盟自2019年起实现相互充分性认定，个人数据可在双方之间自由流转，无需额外手续。日本是极少数获得欧盟完整充分性认定的非欧洲国家之一。

充分性协议覆盖标准个人数据。即便在充分性框架下，敏感健康数据和犯罪记录的传输仍须采取额外保障措施，相关企业须记录所采用的附加措施。

请在 /security-compliance 查看您的数据传输合规义务。

日本合规清单

如果贵公司处理日本个人数据，请从以下事项入手：

具备Verhoeff校验逻辑的我的号码检测能力。
使用在日语文本（而非拉丁字母文本）上训练的模型进行日语NER。
支持汉字、平假名和片假名姓名形式及读音标注变体。
具备地区代码校验的驾驶证检测。
符合法务省格式规范的在留卡检测。
支持各保险公司变体的健康保险证检测。
每个含有个人信息的AI训练数据集须具备有效的合法依据。
APPI匿名化信息须经第三方审查。
在欧日充分性协议框架下传输的敏感数据须采取额外保障措施。

有关本指南所用APPI术语的定义，请参阅 /docs/glossary。

参考来源

准备好保护您的数据了吗？

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

开始免费试用查看功能

日本PPC与APPI：AI训练数据合规