返回博客GDPR 与合规

为什么“删除电子邮件列”还不够:检测CSV自由文本字段中的PII以进行研究数据共享

调查CSV不仅在结构化列中包含PII,还在自由文本响应中。标准的列删除方法忽略了违反GDPR匿名化标准的PII。

April 21, 20267 分钟阅读
research dataCSV anonymizationGDPR Article 89survey datadata sharing

结构化与自由文本PII问题

在学术机构之间共享的研究数据最常以CSV格式传输。当研究人员准备CSV以进行共享时,标准的匿名化检查表是基于列的:识别包含个人数据的列,删除或假名化这些列。

这种方法可靠地处理结构化PII。名为“电子邮件”的列包含电子邮件地址——删除它。名为“电话”的列包含电话号码——删除它。名为“参与者姓名”的列包含姓名——假名化它。

列删除方法遗漏的内容:嵌入在自由文本响应列中的PII。

一个包含5000行和20列的调查数据集可能有:

  • 5个结构化PII列(姓名、电子邮件、电话、ID、出生年份)
  • 15个自由文本响应列(“附加评论”、“描述经历”、“有什么可以改进的”、“其他细节”)

结构化列通过列删除进行清理。自由文本列保持不变。但调查受访者写下的内容包括:

  • “我在波士顿医疗中心的医生玛丽亚·桑托斯博士说治疗是实验性的”
  • “自从2019年约翰·亨德森的车撞上我的车后,我一直在处理这个问题”
  • “如果您需要更多信息,可以通过margaret.wells@gmail.com联系我的护理人员”

这些条目包含命名的个人、机构隶属、健康信息和联系详情——这些都没有出现在列标题中,也没有被列删除匿名化捕获。

为什么这不符合GDPR的匿名化标准

GDPR第26条说明匿名数据是指“不与已识别或可识别的自然人相关的信息。”匿名化的标准是一个高门槛:数据只有在“合理估计下”不可能识别数据主体时才算匿名。

一个部分匿名的研究CSV——结构化列已清理,自由文本列包含命名个人——不符合这一标准。自由文本响应中的命名个人是可识别的,因此数据集仍然是个人数据,受GDPR第89条保护要求的约束。

这对几个研究背景很重要:

第89条研究豁免: GDPR第89条允许出于科学研究目的处理个人数据,减少义务,但仅在有“适当的保护措施”到位时。共享一个部分匿名的数据集(但仍在自由文本中包含PII)同时声称符合第89条保护措施是合规失败。

研究伦理委员会批准: 大多数学术IRB和伦理审查委员会要求共享的数据集必须真正匿名。部分匿名化,保留自由文本PII,通常不满足伦理批准条件。

机构之间的数据共享协议: 研究数据的DSA通常规定共享数据必须按照定义的标准进行匿名化。部分匿名化未能符合GDPR第26条可能违反DSA。

自由文本PII检测的技术挑战

自由文本调查响应是最具挑战性的PII检测目标之一,因为:

上下文命名: “波士顿医疗中心的玛丽亚·桑托斯博士”需要NER检测“玛丽亚·桑托斯”为个人,“波士顿医疗中心”为组织——而不是关键字匹配。模式不可预测。

偶然识别: “约翰·亨德森的车撞上了我的车”需要NER识别“约翰·亨德森”为叙述上下文中的命名个人——而不是数据字段,而是故事中提到的人。

意外格式的联系信息: 出现在自由文本中的电子邮件地址和电话号码可能具有非标准格式(“通过margaret dot wells at gmail联系我”),仅使用正则表达式的检测可能会遗漏。

特定于研究的实体类型: 学术和临床研究数据通常包含机构标识符(医院ID、研究地点代码)、临床术语和位置引用,这些在上下文中是PII,即使不明显。

这就是为什么基于NLP的检测——而不仅仅是模式匹配——对于真正的自由文本调查匿名化是必要的。

用例:多机构研究联盟

三所欧洲大学的研究联盟进行了一项患者体验调查:5000名受访者,3个结构化PII列和8个自由文本响应列。数据将在机构之间共享,以便根据数据共享协议和GDPR第89条豁免进行协作分析。

标准方法(仅列删除):

  • 删除3个结构化PII列
  • 保留8个自由文本列
  • 合规声明:“已删除PII列”
  • 实际剩余的PII:在自由文本响应中提到的47个命名个人,评论中自愿提供的23个电子邮件地址,18个可能在上下文中识别受访者的位置引用

使用自由文本NLP检测:

  • 3个结构化PII列假名化(一致的标记,不删除——保持行计数完整性)
  • 8个自由文本列处理:检测并替换47个个人姓名,检测并掩盖23个电子邮件地址,检测并概括18个位置引用(“波士顿医疗中心”→“[医疗机构]”)
  • 输出:真正匿名的数据集,符合GDPR第26条标准
  • 研究伦理委员会接受了匿名化方法
  • DSA合规性由DPO审查确认

区别在于:第二种方法生成的数据集实际上满足匿名化标准。第一种方法生成的数据集看似匿名,但在未审查的列中包含可识别的信息。

建立研究数据匿名化协议

对于处理调查和访谈数据的研究团队,结构化的预共享协议:

步骤1:列分类

  • 对所有列进行分类:结构化PII、结构化非PII、自由文本响应
  • 记录分类

步骤2:结构化PII处理

  • 删除(如果不需要用于研究)或假名化(如果需要用于记录链接)
  • 记录使用的替换标记

步骤3:自由文本内容分析

  • 对所有自由文本列运行NLP检测
  • 审查检测到的实体:确认哪些代表真正的PII
  • 对确认的PII实体应用替换

步骤4:验证

  • 从输出数据集中抽样50-100行
  • 手动审查任何包含检测到的实体的自由文本条目
  • 确认检测率对列类型是适当的

步骤5:文档

  • 匿名化方法文档:使用的工具、检测到的实体类型、处理的列
  • 与匿名数据集一起分享方法文档以供伦理审查

该协议将“我们删除了姓名列”转变为一个可辩护的、记录在案的匿名化过程,满足GDPR第89条和机构研究伦理要求。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。