返回博客医疗保健

HIPAA安全港去标识化:无需工程即可检测医院特定MRN格式

HIPAA安全港要求去除医疗记录号码——但MRN格式并不标准化。Epic、Cerner和Meditech都使用不同的格式。标准的PII工具完全无法识别医院特定的MRN。以下是如何在不进行工程冲刺的情况下添加自定义MRN检测的方法。

April 20, 20267 分钟阅读
HIPAA Safe Harbormedical record numbersMRN detectionhealthcare compliancecustom PII patterns

HIPAA安全港去标识化:无需工程即可检测医院特定MRN格式

HIPAA安全港去标识化要求去除"医疗记录号码"作为其18个标识符类别之一。这看似简单,直到你遇到实际的操作挑战:医疗记录号码并没有标准化。

Epic以一种格式生成MRN。Cerner使用不同的格式。Meditech使用另一种格式。医院网络分配自己的设施代码。区域健康信息组织创建更多格式。结果是:一个标准的PII工具在扫描临床文档时寻找"医疗记录号码",却无法知道你的机构使用什么格式——因此完全会遗漏它们。

这不是一个假设的缺口。进行HIPAA去标识化评估的医疗IT团队经常发现,在"去标识化"的数据集中,MRN仍然存在,因为匿名化工具仅针对标准的PII类别进行了配置。

MRN标准化问题

美国医疗保健没有医疗记录号码格式的国家标准。每个机构(或EHR供应商)定义自己的:

观察到的常见模式:

  • Epic风格: 8-12位数字(例如:123456789)
  • Cerner风格: 医院代码前缀 + 数字(例如:MGH-987654)
  • 区域网络: 设施代码 + 年 + 序列(例如:HOSP-2023-456789)
  • 退伍军人事务部: 9位数字,具有特定的校验位模式
  • 儿科系统: 患者类型前缀 + 数字(例如:PED-12345678)

这些都不匹配一个通用的"医疗记录号码"正则表达式模式,因为不存在这样的通用模式。

标准PII工具检测的内容: 标准的HIPAA去标识化工具实现专注于具有标准格式的标识符:社会安全号码(XXX-XX-XXXX)、电话号码(XXX-XXX-XXXX)、电子邮件地址、日期。MRN、账户号码和证书/许可证号码——HIPAA类别8、10和11——是特定于机构的,需要自定义配置。

合规风险

一个区域医院网络准备与大学研究合作伙伴共享去标识化的患者数据。他们的EHR生成MRN的格式是:HOSP-YYYY-XXXXXX(医院代码,4位年份,6位序列号)。

他们通过标准的HIPAA去标识化工具运行数据集。该工具去除了:

  • 患者姓名 ✓
  • 日期(超出年份) ✓
  • 电话号码 ✓
  • 电子邮件地址 ✓
  • 小于州的地理数据 ✓
  • 社会安全号码 ✓

该工具未去除MRN——因为HOSP-2023-456789不匹配任何内置的MRN模式。

研究人员收到数据集,对其内部记录(包括来自同一家医院的转诊MRN)进行连接,并能够重新识别出相当比例的"去标识化"患者。医院网络发生了HIPAA违规。

这个场景并不是假设——这是去标识化工作流中的一个文档化失败模式。

自定义实体创建:解决方案

解决方案是将MRN格式定义为匿名化工具中的自定义实体。合规官(而不是工程师)可以:

  1. 确定机构的MRN格式:"医院标识符以HOSP开头,然后是一个破折号,然后是4位年份,然后是一个破折号,然后是6位数字"

  2. 使用AI模式助手生成适当的正则表达式:HOSP-d{4}-d{6}

  3. 针对样本文档进行验证:上传20份出院总结,验证模式是否捕获所有MRN

  4. 保存为自定义实体:"医院MRN"——现在在所有处理模式中可用

  5. 包含在HIPAA去标识化预设中:标准预设加上自定义MRN实体覆盖了该机构的所有18个安全港类别

时间表:合规官的3天时间与自定义代码开发的工程工单队列的3个月相比。

示例:区域医院网络实施

组织: 15家设施的区域医院网络 MRN格式: HOSP-YYYY-XXXXXX(出现在数千份出院总结PDF中) 合规挑战: 为大学合作伙伴准备研究数据集(已执行HIPAA数据使用协议,需要去标识化) 之前的方法: 外部HIPAA去标识化供应商($120,000/年) 发现的缺口: 供应商工具未检测到特定于机构的MRN格式

新工作流程:

  1. 合规官定义MRN模式(20分钟)
  2. AI协助进行正则表达式验证(5分钟)
  3. 针对50份样本出院总结进行测试(30分钟)
  4. 确认所有MRN被检测到,没有误报(10分钟)
  5. 将其添加到与标准实体并列的HIPAA去标识化预设中
  6. 批量处理完整的50,000条记录的研究数据集

关闭合规缺口的总时间:一个下午。

多设施组织:每个设施不同的MRN格式

通过合并获得的医院网络通常有多个EHR系统——以及来自遗留安装的多个MRN格式。

处理多个MRN格式:

为每种格式创建单独的自定义实体:

  • "MRN格式A(Epic)"——8位数字
  • "MRN格式B(遗留Cerner)"——前缀 + 7位数字
  • "MRN格式C(收购附属机构)"——州代码 + 年 + 序列

一个包含所有三个自定义实体加上标准HIPAA标识符的预设覆盖了整个网络的去标识化要求。当应用于包含来自任何设施的文档的批次时,所有MRN格式都被捕获。

超越MRN:其他特定于机构的标识符

相同的自定义实体方法适用于组织以非标准格式实施的其他HIPAA安全港类别:

健康计划受益人号码(类别9): 保险会员ID是承运人特定的。Aetna、蓝十字、联合健康都使用不同的格式。处理账单记录的医院系统需要为他们合作的每个付款方提供自定义模式。

账户号码(类别10): 医院账单的账户号码(而不是临床MRN)是特定于机构的。

证书/许可证号码(类别11): 医生DEA号码有标准格式。州医疗许可证号码没有——每个州的许可委员会使用不同的格式。

设备标识符(类别14): 医疗设备序列号是制造商特定的。

对于这些类别中的每一个,自定义实体创建使合规团队能够在没有工程资源的情况下关闭检测缺口。

验证:验证安全港合规性

HIPAA的安全港方法要求被覆盖实体"没有实际知识,认为信息可以单独或与其他信息结合使用,以识别信息的主题个体。"

对于应用自定义实体检测的合规官,验证是证明所有18个类别都被覆盖:

  1. 处理来自研究数据集的50-100份文档的样本
  2. 手动审查处理的输出——是否有任何内容看起来像潜在的标识符?
  3. 通过第二次检测传递运行输出(以捕捉可能遗漏的任何模式)
  4. 记录验证过程

自定义实体配置、验证抽样结果和处理元数据共同构成安全港去标识化的文档记录。

结论

HIPAA安全港去标识化并不是通过配置为通用模式的标准PII工具来完成的。医疗记录号码——18个必需类别之一——是特定于机构的,需要自定义检测以确保合规。

自定义实体创建在数小时内关闭了这一缺口,而不是数月。合规官可以定义特定于机构的模式,针对样本文档进行验证,并在没有工程资源的情况下生成真正符合安全港的输出。

"我们运行了一个HIPAA去标识化工具"与"我们实际上去除了所有18个安全港标识符"之间的合规缺口,往往只是一个未配置的自定义实体。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。