结构化与自由文本PII问题
在学术机构之间共享的研究数据最常以CSV格式传输。当研究人员准备CSV以进行共享时,标准的匿名化检查表是基于列的:识别包含个人数据的列,删除或假名化这些列。
这种方法可靠地处理结构化PII。名为“电子邮件”的列包含电子邮件地址——删除它。名为“电话”的列包含电话号码——删除它。名为“参与者姓名”的列包含姓名——假名化它。
列删除方法遗漏的内容:嵌入在自由文本响应列中的PII。
一个包含5000行和20列的调查数据集可能有:
- 5个结构化PII列(姓名、电子邮件、电话、ID、出生年份)
- 15个自由文本响应列(“附加评论”、“描述经历”、“有什么可以改进的”、“其他细节”)
结构化列通过列删除进行清理。自由文本列保持不变。但调查受访者写下的内容包括:
- “我在波士顿医疗中心的医生玛丽亚·桑托斯博士说治疗是实验性的”
- “自从2019年约翰·亨德森的车撞上我的车后,我一直在处理这个问题”
- “如果您需要更多信息,可以通过margaret.wells@gmail.com联系我的护理人员”
这些条目包含命名的个人、机构隶属、健康信息和联系详情——这些都没有出现在列标题中,也没有被列删除匿名化捕获。
为什么这不符合GDPR的匿名化标准
GDPR第26条说明匿名数据是指“不与已识别或可识别的自然人相关的信息。”匿名化的标准是一个高门槛:数据只有在“合理估计下”不可能识别数据主体时才算匿名。
一个部分匿名的研究CSV——结构化列已清理,自由文本列包含命名个人——不符合这一标准。自由文本响应中的命名个人是可识别的,因此数据集仍然是个人数据,受GDPR第89条保护要求的约束。
这对几个研究背景很重要:
第89条研究豁免: GDPR第89条允许出于科学研究目的处理个人数据,减少义务,但仅在有“适当的保护措施”到位时。共享一个部分匿名的数据集(但仍在自由文本中包含PII)同时声称符合第89条保护措施是合规失败。
研究伦理委员会批准: 大多数学术IRB和伦理审查委员会要求共享的数据集必须真正匿名。部分匿名化,保留自由文本PII,通常不满足伦理批准条件。
机构之间的数据共享协议: 研究数据的DSA通常规定共享数据必须按照定义的标准进行匿名化。部分匿名化未能符合GDPR第26条可能违反DSA。
自由文本PII检测的技术挑战
自由文本调查响应是最具挑战性的PII检测目标之一,因为:
上下文命名: “波士顿医疗中心的玛丽亚·桑托斯博士”需要NER检测“玛丽亚·桑托斯”为个人,“波士顿医疗中心”为组织——而不是关键字匹配。模式不可预测。
偶然识别: “约翰·亨德森的车撞上了我的车”需要NER识别“约翰·亨德森”为叙述上下文中的命名个人——而不是数据字段,而是故事中提到的人。
意外格式的联系信息: 出现在自由文本中的电子邮件地址和电话号码可能具有非标准格式(“通过margaret dot wells at gmail联系我”),仅使用正则表达式的检测可能会遗漏。
特定于研究的实体类型: 学术和临床研究数据通常包含机构标识符(医院ID、研究地点代码)、临床术语和位置引用,这些在上下文中是PII,即使不明显。
这就是为什么基于NLP的检测——而不仅仅是模式匹配——对于真正的自由文本调查匿名化是必要的。
用例:多机构研究联盟
三所欧洲大学的研究联盟进行了一项患者体验调查:5000名受访者,3个结构化PII列和8个自由文本响应列。数据将在机构之间共享,以便根据数据共享协议和GDPR第89条豁免进行协作分析。
标准方法(仅列删除):
- 删除3个结构化PII列
- 保留8个自由文本列
- 合规声明:“已删除PII列”
- 实际剩余的PII:在自由文本响应中提到的47个命名个人,评论中自愿提供的23个电子邮件地址,18个可能在上下文中识别受访者的位置引用
使用自由文本NLP检测:
- 3个结构化PII列假名化(一致的标记,不删除——保持行计数完整性)
- 8个自由文本列处理:检测并替换47个个人姓名,检测并掩盖23个电子邮件地址,检测并概括18个位置引用(“波士顿医疗中心”→“[医疗机构]”)
- 输出:真正匿名的数据集,符合GDPR第26条标准
- 研究伦理委员会接受了匿名化方法
- DSA合规性由DPO审查确认
区别在于:第二种方法生成的数据集实际上满足匿名化标准。第一种方法生成的数据集看似匿名,但在未审查的列中包含可识别的信息。
建立研究数据匿名化协议
对于处理调查和访谈数据的研究团队,结构化的预共享协议:
步骤1:列分类
- 对所有列进行分类:结构化PII、结构化非PII、自由文本响应
- 记录分类
步骤2:结构化PII处理
- 删除(如果不需要用于研究)或假名化(如果需要用于记录链接)
- 记录使用的替换标记
步骤3:自由文本内容分析
- 对所有自由文本列运行NLP检测
- 审查检测到的实体:确认哪些代表真正的PII
- 对确认的PII实体应用替换
步骤4:验证
- 从输出数据集中抽样50-100行
- 手动审查任何包含检测到的实体的自由文本条目
- 确认检测率对列类型是适当的
步骤5:文档
- 匿名化方法文档:使用的工具、检测到的实体类型、处理的列
- 与匿名数据集一起分享方法文档以供伦理审查
该协议将“我们删除了姓名列”转变为一个可辩护的、记录在案的匿名化过程,满足GDPR第89条和机构研究伦理要求。
来源: