日本PPC与APPI:AI训练数据合规
日本个人信息保护委员会(PPC)负责执行《个人信息保护法》(APPI)。2022年修订案是该法律历史上修改幅度最大的一次,新增了假名化信息、跨境数据传输和AI训练数据集的相关规则。PPC在2024年发布了45项裁决,并于同年发布了首份日本专项AI隐私指南。
如果贵公司使用日语文本训练模型或持有日本用户数据,上述规则已对贵公司产生直接约束力。
2022年修订案的核心变化
全日本240万家企业须更新隐私规则并改造数据处理流程。
**假名化信息(仮名加工情報):**新设的中间类别,指删除了直接标识符但仍可通过密钥重新识别的个人信息。此类信息可在组织内部流转而无需完整同意,但不得提供给第三方。GDPR无此类别。
**匿名化信息(匿名加工情報):**技术上须做到无法重新识别,且须经过具备资质的第三方认证。日本的门槛高于GDPR——GDPR将此类审查设为选项,APPI则将其列为强制要求。
**跨境数据传输:**向其他国家传输数据须达到日本的保护标准。PPC维护一份已批准国家名单,欧盟已列入其中。
**AI训练数据集:**PPC于2024年发布的指南对此作出明确规定:
- 训练数据集须完全匿名化,或须具备有效的合法依据(通常为同意)。
- 处理豁免仅适用于模型无法从输出结果中识别个人身份的情形。
- 基于网络爬取日语内容训练LLM的开发者须证明其具备合法的数据收集依据。
有关跨境合规义务的全面梳理,请访问 /legal/compliance。
我的号码:日本国家身份标识
我的号码(マイナンバー)是一个12位数字的国家身份标识,面向日本所有居民发放,外籍居民同样持有。该系统自2016年起运行,涵盖税务、社会保障和灾害救援领域。
**校验位原理:**我的号码采用Verhoeff算法进行校验,这是一种基于数学原理的错误检测方案,构建难度高于瑞典personnummer和加拿大SIN所使用的Luhn算法,也比大多数欧洲身份证号码所采用的简单模运算更为复杂。
**检测难点:**仅扫描12位数字串的工具容易出现误判。日期、邮政编码和发票编号在外观上与我的号码高度相似,须具备完整的Verhoeff逻辑才能加以区分,单纯的正则表达式远远不够。
PPC 2024年审查结果触目惊心:63%的通用NLP工具无法在日语文件中有效检测到我的号码。
了解anonym.legal如何处理我的号码,请访问 /entities。
三种文字系统的并存挑战
日语同时使用平假名、片假名和汉字,部分场合还会出现罗马字。同一人名在不同文件中可能呈现不同书写形式。专为拉丁字母文本构建的工具在日语处理上存在天然局限。
对姓名检测的具体影响:
- 日语命名实体识别(NER)须使用在日语文本上训练的模型,推荐使用spaCy的ja_core_news系列模型。
- 日语词语之间没有空格,分词是独立的处理步骤,须使用日语专用工具。
- 人名以汉字书写,读音标注以平假名或片假名呈现,工具须同时识别两种形式。
- 企业名称(会社名、株式会社等)须使用日本特定规则进行识别。
有关亚太地区语言的NER处理,请参阅 /docs/faq。
其他日本身份证明格式
**驾驶证:**12位数字,带有发证地区前缀代码,各地区代码固定——东京为10,大阪为62,可进行地区验证。
**护照:**遵循ICAO国际标准,并设有日本特定的签发规则。
**健康保险证(健康保険証):**由记号(記号)加号码组成,格式因保险公司不同而有所差异。
**在留卡:**面向外籍居民,格式为两个字母、八位数字、两个字母,由法务省颁发。
日欧数据传输现状
日本与欧盟自2019年起实现相互充分性认定,个人数据可在双方之间自由流转,无需额外手续。日本是极少数获得欧盟完整充分性认定的非欧洲国家之一。
充分性协议覆盖标准个人数据。即便在充分性框架下,敏感健康数据和犯罪记录的传输仍须采取额外保障措施,相关企业须记录所采用的附加措施。
请在 /security-compliance 查看您的数据传输合规义务。
日本合规清单
如果贵公司处理日本个人数据,请从以下事项入手:
- 具备Verhoeff校验逻辑的我的号码检测能力。
- 使用在日语文本(而非拉丁字母文本)上训练的模型进行日语NER。
- 支持汉字、平假名和片假名姓名形式及读音标注变体。
- 具备地区代码校验的驾驶证检测。
- 符合法务省格式规范的在留卡检测。
- 支持各保险公司变体的健康保险证检测。
- 每个含有个人信息的AI训练数据集须具备有效的合法依据。
- APPI匿名化信息须经第三方审查。
- 在欧日充分性协议框架下传输的敏感数据须采取额外保障措施。
有关本指南所用APPI术语的定义,请参阅 /docs/glossary。