HIPAA安全港大规模去标识化:医疗研究人员的实用指南
一个学术医疗中心的IRB批准的研究项目需要对20万份出院记录进行去标识化,以用于再入院预测机器学习模型。现有的HIPAA去标识化工具每年的费用为12万美元。用于数据处理的研究拨款预算为5000美元。
这种情况很常见。医疗研究产生有价值的见解——再入院预测模型、治疗结果研究、药物疗效分析——这些都需要大规模、具有代表性的数据集,以确保统计意义。这些数据集中包含受保护的健康信息(PHI)。去标识化使研究成为可能,同时保护患者隐私。但是,现有的大规模去标识化工具的定价是针对大型医院系统的,而不是研究预算。
HIPAA安全港:必须去除的内容
HIPAA的安全港去标识化方法(45 CFR §164.514(b))规定了在健康信息失去“受保护”状态并可用于研究而无需个人授权之前,必须去除的18类PHI标识符:
- 姓名
- 地理数据(所有小于州的;邮政编码需要截断为3位数以适应小人口)
- 日期(年份除外)——入院日期、出院日期、出生日期、死亡日期、所有其他日期
- 电话号码
- 传真号码
- 电子邮件地址
- 社会安全号码
- 医疗记录号码
- 健康计划受益人号码
- 账户号码
- 证书/许可证号码
- 车辆标识符和序列号
- 设备标识符和序列号
- 网站URL
- IP地址
- 生物识别标识符(指纹、声音印记)
- 全脸照片和可比图像
- 任何其他唯一标识号码、特征或代码
前5个标识符(姓名、地理数据、日期、电话号码、传真号码)几乎出现在每一份出院记录中。它们必须全部被去除或修改。
关于日期的说明: 这是最具操作复杂性的安全港要求之一。不仅仅是出生日期——与患者护理相关的所有日期必须保留年份,并去除或概括具体日期。标记为“2023年3月15日”的出院记录变为“2023”。如果去除基础日期,入院持续时间可以作为计算字段保留。
学术研究中的规模问题
在医疗保健中产生统计显著发现的研究数据集通常需要:
- 再入院预测:50,000-500,000次患者接触
- 治疗结果分析:每种情况10,000-100,000名患者
- 药物疗效研究:5,000-50,000份患者记录
- 人口健康分析:100,000次以上的接触
在这种规模下,手动去标识化是不可行的:
- 即使每条记录审查5分钟,处理10万条记录也需要250-2,500个工作日
- 手动审查引入1-5%的人工错误率——对于研究数据集来说,这是不可接受的,因为即使是小比例的可识别记录也会造成HIPAA责任
- 在数据集中的不一致应用(一个审查者处理日期的方式与另一个不同)削弱了安全港的资格
替代方案——自动去标识化——需要足够复杂的工具,以检测临床文档中各种格式的所有18类标识符。
当前工具格局与定价差距
企业HIPAA去标识化工具:
- Datavant:每年超过10万美元,适用于大型医疗组织
- Veradigm(Allscripts)去标识化:类似的企业定价
- Clinithink CLiX:联系销售定价
- Syntegra(合成数据生成):企业定价
这些工具旨在为每年处理数百万条记录的医院系统提供支持,配备合规团队、法律部门和企业采购能力。它们对研究预算的学术研究人员并不友好。
免费/开源选项:
- MITRE识别清理工具包(MIST):免费,但需要大量技术设置,并且语言支持有限
- 斯坦福NLP DEID:研究级,需要Java/编程专业知识
- i2b2 NLP工具:临床NLP工具,需要技术设置
差距: 学术医疗中心需要可靠、准确的去标识化,且技术设置最小。开源工具需要计算语言学专业知识来配置和验证。企业工具需要研究项目没有的预算。
实用方法:顺序批处理
对于20万条出院记录的数据集:
步骤1:从EHR导出数据 将结构化和非结构化数据字段导出到每次患者接触的文本文件或PDF记录中。大多数EHR系统(Epic、Cerner、Meditech)支持以CSV/HL7格式导出结构化数据,临床笔记有单独的文本字段。
步骤2:顺序批量去标识化 以5,000条记录为一批处理——足够大以提高效率,足够小以允许在每个阶段进行质量审查。
为HIPAA安全港配置实体类型:
- PERSON(患者姓名、笔记中提到的家庭成员姓名)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION(小于州的地理实体——街道地址、邮政编码、城市)
- DATE(所有临床日期——应用年龄概括:89岁以上的患者变为“89岁以上”)
- HEALTHCARE_ID(保险会员号码、受益人号码)
- ACCOUNT_NUMBER
步骤3:日期处理(专业化) 日期需要特定处理,超出去除的要求:
- 保留年份
- 去除月份和日期
- 对于年龄计算:如果年龄>89,将确切年龄替换为“>89”,以防止通过罕见的年龄-疾病组合重新识别
- 从日期差异计算持续时间字段(住院天数、再入院天数),然后去除原始日期
此步骤可能需要一个专业的后处理脚本,以在去除日期之前计算派生字段。
步骤4:验证抽样 在每批5,000条记录后,抽取50条记录进行人工审查:
- 验证所有18类标识符是否已去除
- 检查上下文特定标识符(临床笔记中的研究者姓名、转诊医生详细信息)
- 验证日期处理是否符合安全港要求
步骤5:认证 HIPAA要求具有适当统计或科学知识的人确定重新识别的概率非常小。对于安全港,申请18类去除的实体需认证合规性。记录您的过程、实体类型配置和验证抽样以供IRB记录。
成本分析:研究预算与企业工具
企业HIPAA去标识化工具:12万美元/年 包括设置、培训、无限处理、合规文档支持。
批量处理方法:
- 20万条记录 × 每条记录平均300个单词 = 60,000,000个标记
- 每个标记€0.0001:处理成本€6,000
- 专业计划(€180/年)或商业计划(€348/年)用于项目持续时间
- 研究者验证时间:20-40小时,按博士后费率计算
- 总计:大约€7,000-8,000
与企业工具相比的年度节省:$111,000-113,000。
原本成本高达12万美元的研究,现在以7,000美元的成本变得可行——拨款预算覆盖了数据处理和研究者时间。
重要警告
此方法适用于基于文本的PHI去标识化。 图像、音频录音和生物识别数据(安全港类别13、16、17)需要超出文本处理的专业工具。
需要验证。 自动化工具并非100%准确。在20万条记录中0.1%的遗漏率意味着有200条记录残留PHI——仍然是一个显著的HIPAA风险。验证抽样步骤不是可选的。
您所在机构的隐私办公室应进行审查。 IRB对研究的批准并不自动授权去标识化方法。大多数学术医疗中心都有隐私办公室或IRB审查去标识化方法。这一指导补充,而不是替代,机构审查。
考虑专家判断作为替代方案。 HIPAA还允许通过“专家判断”(45 CFR §164.514(b)(1))进行去标识化——由统计专家认证重新识别风险非常小。这种方法可能更适合于不寻常的数据集,其中安全港的分类去除会造成方法论问题(去除所有日期使得时间分析不可能)。
结论
能够改善患者结果的医疗研究目前受到HIPAA去标识化成本的瓶颈。当学术研究人员唯一可负担的选择是手动去标识化(在规模上不可行)或昂贵的企业工具(超出拨款预算)时,研究数据集仍然被锁定或去标识化不足。
使用基于标记的定价进行批量去标识化使得20万条记录的研究数据集在经济上可行。大型医院系统可用的相同统计准确性变得可供学术医疗中心、独立研究人员和参与质量改进研究的小型医疗组织使用。
来源: