无须正则表达式博士的HIPAA去标识化:AI辅助的MRN模式创建
您医院的医疗记录号码格式在任何标准的PII工具中都不存在。以下是如何在5分钟内添加它,而无需编写一行正则表达式。
实施HIPAA去标识化的医疗保健IT团队面临一个特定的挑战,这在其他行业并不存在:他们最需要检测的标识符——医疗记录号码——是由他们自己的机构定义的,而不是由任何国家标准定义的。
结果是:医疗保健系统中每次实施HIPAA去标识化都需要自定义配置。如果没有自定义配置,MRN将通过“去标识化”数据集未被检测到。
多设施MRN混乱
通过多年的收购建立的医疗保健网络包含具有遗留EHR系统的设施——每个设施都有其几十年前建立的MRN格式:
- 纪念医院(自2015年起使用Epic):MRN:XXXXXXX(带前缀的7位数字)
- 圣玛丽医院(遗留Cerner系统):PT-YYYYY(带患者前缀的5位数字)
- 大学医院(Meditech 6.0):UHN-XXXXXXXXXX(10个字符的字母数字)
- 附属诊所(独立EMR):Cd{5}(C后跟5位数字)
HIPAA安全港要求删除所有18个标识符类别,包括“医疗记录号码”(类别8)。一个不知道这些格式的去标识化工具完全错过它们。“去标识化”数据集中包含所有四种设施格式的所有MRN。
ServiceNow的医疗保健社区专门记录了这一痛点:医疗保健IT团队试图从HR工作笔记中识别PHI时发现,标准的Presidio配置能够检测SSN和电话号码,但完全错过了特定设施的MRN。
正则表达式障碍
在Microsoft Presidio(许多HIPAA工具的开源基础)中构建自定义识别器需要:
- 理解PatternRecognizer类
- 用Python语法编写正则表达式模式
- 配置YAML文件以注册识别器
- 理解置信度分数和上下文词
- 使用Python脚本进行测试
- 调试失败的识别器
对于没有Python背景的医疗保健IT专业人员来说,这造成了实质性的技术障碍。一个确切知道MRN:XXXXXXX格式的合规官无法配置Presidio识别器,除非学习Python或等待工程工单。
典型结果是:合规差距保持开放,而工程工单在6-8周的队列中等待。
AI辅助的模式生成
替代方案:用简单语言描述模式,获得一个有效的正则表达式。
流程:
- 打开自定义实体构建器
- 提供示例:“这些看起来像我们系统中的MRN号码:MRN:1234567, MRN:9876543, MRN:0001234”
- AI生成模式:MRN:d{7}
- 对10个样本出院摘要进行测试
- 所有MRN被检测到?保存并应用。
对于具有四种MRN格式的多设施网络:
- 纪念医院:描述格式 → MRN:d{7}
- 圣玛丽医院:描述格式 → PT-d{5}
- 大学医院:描述格式 → UHN-[A-Z0-9]{10}
- 附属诊所:描述格式 → Cd{5}
创建四个自定义实体,分组为“网络MRN检测”预设,应用于所有文档处理。总时间:合规官工作一个下午。
安全港认证的验证
HIPAA的安全港方法要求被覆盖实体“没有实际知识表明该信息可以单独或与其他信息结合使用以识别个人。”
对于基于自定义实体的检测,验证证明完整性:
第1步:样本提取 从每种设施类型中提取100个出院摘要。混合患者群体、部门和时间段。
第2步:自动处理 通过自定义实体检测运行所有400个文档。
第3步:人工验证样本 手动审核20个处理过的文档(5%样本)。查找:
- 任何看起来像MRN但未被检测到的字符串(假阴性)
- 任何被错误标记的非MRN字符串(假阳性)
第4步:模式细化 如果发现假阴性:细化模式或添加上下文匹配。如果假阳性数量众多:添加词边界约束或上下文验证。
第5步:文档记录 记录:自定义实体定义、验证样本大小、验证结果和验证日期。该文档支持安全港认证。
超越MRN:完整的HIPAA安全港覆盖
在解决MRN检测差距后,检查所有18个安全港类别的完整性:
| 类别 | 标准检测 | 需要自定义? |
|---|---|---|
| 1. 名字 | ✓ NER模型 | 否 |
| 2. 地理数据 | ✓ 位置检测 | 对于州否;对于特定设施代码是 |
| 3. 日期 | ✓ 日期检测 | 否 |
| 4. 电话号码 | ✓ 电话检测 | 否 |
| 5. 传真号码 | ✓ 电话检测 | 否 |
| 6. 电子邮件地址 | ✓ 电子邮件检测 | 否 |
| 7. SSN | ✓ SSN检测 | 否 |
| 8. 医疗记录号码 | ✗ 不在默认中 | 是 — 机构特定 |
| 9. 健康计划受益人号码 | 部分 | 通常是 — 承运人特定 |
| 10. 账户号码 | 部分 | 通常是 — 账单账户格式 |
| 11. 证书/许可证号码 | 部分 | 通常是 — DEA + 州特定 |
| 12. 车辆标识符 | 部分 | 在临床文档中很少见 |
| 13. 设备标识符 | 部分 | 如果记录了医疗设备则是 |
| 14. 网站URL | ✓ URL检测 | 否 |
| 15. IP地址 | ✓ IP检测 | 否 |
| 16. 生物识别标识符 | ✗ 文本上下文 | 在出院摘要中很少见 |
| 17. 全脸照片 | ✗ 仅图像 | 超出文本处理范围 |
| 18. 其他唯一标识符 | ✗ 不在默认中 | 是 — 机构特定 |
对于临床文本处理,类别8、9、10和18最常需要添加自定义实体。
临床文档上下文
出院摘要、临床笔记和手术报告是需要HIPAA去标识化以进行研究共享的主要文档。这些文档包含:
- 页眉和页脚中的MRN
- 账单部分中的账户号码
- 各处的日期(入院、程序、实验室、药物)
- 医生姓名和DEA号码
- 转诊医生信息
- 保险会员ID
针对机构特定格式(MRN、账户号码)的自定义实体检测与针对通用格式(日期、姓名、电话号码)的标准检测相结合,提供了HIPAA安全港所需的完整覆盖。
结论
没有自定义实体配置的HIPAA去标识化不是HIPAA安全港去标识化。每个医疗机构的MRN格式都是独特的。标准的PII工具无法识别它们。合规团队不能等待工程队列来填补这一差距。
AI辅助的模式生成将合规差距从6-8周的工程时间缩短到合规官工作一个下午。描述格式,验证样本,部署到生产。
来源: