2026年版に更新済み
HIPAA Safe Harbor の識別除去:エンジニアリング不要で病院固有のMRN形式を検出する
HIPAA Safe Harborは、医療記録番号の削除を義務付けています。これは18の必須ID種別のひとつです。シンプルに聞こえます。問題は、MRN形式が標準化されていないことです。
EpicはひとつのMRN形式を使います。Cernerは別の形式を使います。Meditechはさらに別の形式を使います。各病院が独自のコードを追加します。地域の医療機関はさらに多くの形式を作ります。標準的なPIIツールはあなたの形式を知ることができません。そのためMRNを見逃してしまいます。
これは小さなリスクではありません。医療ITチームは、匿名化されているはずのデータセットにMRNが残っているケースを頻繁に発見します。ツールが一般的なPII種別向けにしか設定されていないことが原因です。
MRN形式の問題
米国には医療記録番号の全国標準がありません。各病院またはEHRベンダーが独自の形式を定義しています。
よく見られるパターン:
- Epicスタイル: 8〜12桁の数字(例:123456789)
- Cernerスタイル: 病院コードのプレフィックス+数字(例:MGH-987654)
- 地域ネットワーク: 施設コード+年+連番(例:HOSP-2023-456789)
- Veterans Affairs: 検査桁付きの9桁数字
- 小児科システム: 患者種別プレフィックス+数字(例:PED-12345678)
これらすべてに合致する単一のルールはありません。普遍的なMRNパターンは存在しません。
標準PIIツールが検出するもの: ほとんどのHIPAAツールは固定形式のIDに焦点を当てています。SSNはXXX-XX-XXXXに従います。電話番号はXXX-XXX-XXXXに従います。メールアドレスには明確な形があります。これらは見つけやすいです。
MRN、口座番号、ライセンス番号はHIPAA種別8、10、11に分類されます。これらは病院によって異なります。カスタム設定が必要です。汎用ツールはこれらを検出しません。
コンプライアンスのギャップ
地域の病院が患者データを大学の研究パートナーと共有したいとします。そのEHRはMRN形式HOSP-YYYY-XXXXXXを使用しています。
病院はHIPAAツールでデータを処理します。ツールは氏名、日付、電話番号、SSNを削除します。しかしMRNを削除しません。HOSP-2023-456789は組み込みルールに一致しません。
研究者はデータセットを受け取ります。自分のレコードと照合します。そのレコードには同じ病院からの紹介時のMRNが含まれています。多くの患者が再識別できてしまいます。病院はHIPAA違反を犯したことになります。
これは識別除去ワークフローにおける実際の失敗パターンです。Safe Harborのコンプライアンスが崩れる場面については、医療研究向けHIPAA Safe Harbor識別除去もご覧ください。
解決策:カスタムエンティティの作成
解決策は、MRN形式をカスタムエンティティとして定義することです。コンプライアンス担当者が実施できます。エンジニアは不要です。
手順:
-
形式を書き出す:「HOSPで始まり、ダッシュ、4桁の年、ダッシュ、6桁の番号」
-
AIツールで正規表現を作成する:HOSP-\d{4}-\d{6}
-
20件の退院サマリーでテストする。すべてのMRNを検出することを確認する。
-
「Hospital MRN」というカスタムエンティティとして保存する
-
標準の17種類のID種別とともにHIPAAプリセットに追加する
このプロセスはコンプライアンス担当者が約3日で完了できます。カスタムコードの開発は3ヶ月かかることがあります。
事例:15施設の病院ネットワーク
組織: 地域の15施設病院ネットワーク
MRN形式: HOSP-YYYY-XXXXXX(数千件の退院サマリーPDF内)
目標: HIPAA データ利用契約に基づき、大学パートナーと研究用データセットを共有する
以前のアプローチ: 年間12万ドルの外部識別除去ベンダー
発見されたギャップ: ベンダーツールが施設固有のMRN形式を検出できなかった
新しいワークフロー:
- コンプライアンス担当者がMRNパターンを定義する — 20分
- AIが正規表現を検証する — 5分
- 50件のサンプルサマリーでテスト — 30分
- MRNが残っていないこと、偽陽性なしを確認 — 10分
- HIPAAプリセットにカスタムエンティティを追加する
- 5万件のデータセット全体をバッチ処理する
ギャップを解消するまでの合計時間:午後1日。
複数施設ネットワーク:複数のMRN形式
合併によって形成された病院ネットワークは、複数のEHRシステムを運用することが多いです。各レガシーシステムが異なるMRN形式を使用している可能性があります。
対処方法:
各形式に対してカスタムエンティティを別々に作成する:
- 「MRN形式A(Epic)」 — 8桁数字
- 「MRN形式B(レガシーCerner)」 — プレフィックス+7桁数字
- 「MRN形式C(買収した関連施設)」 — 州コード+年+連番
1つのプリセットに3つすべてのカスタムエンティティと標準HIPAA ID種別を含めます。すべての施設のすべてのドキュメントからMRNが削除されます。
ステップバイステップのガイドはコードなしのHIPAAパイプラインにおけるカスタムMRN検出をご覧ください。
MRN以外:その他の非標準ID
同じアプローチが他のHIPAA Safe Harbor ID種別にも適用できます。
医療保険加入者番号(カテゴリ9): 各保険会社が独自の形式を使います。Aetna、Blue Cross、United Healthcareはすべて異なって見えます。請求チームは各支払者に対してカスタムパターンが必要です。
口座番号(カテゴリ10): 病院の請求口座番号は病院によって異なります。
ライセンス番号(カテゴリ11): DEA番号には連邦標準形式があります。州の医師免許番号にはありません。各州の医師会が独自の形式を使います。
デバイスID(カテゴリ14): 医療機器のシリアル番号はメーカーごとに設定されます。
これらのそれぞれについて、カスタムエンティティがギャップを解消します。エンジニアは不要です。
非標準ID種別の詳細は組織の匿名化のためのカスタムPII識別子をご覧ください。
検証:Safe Harborコンプライアンスの証明
HIPAA Safe Harborは、対象事業体がデータで誰かを特定できるという「実際の知識」を持っていないことを求めています。(45 CFR §164.514(b)(1))
カスタムエンティティの検証により、18すべてのID種別がカバーされていることを証明します。
検証手順:
- 研究用データセットからサンプルドキュメント50〜100件を処理する
- 出力を確認する — IDのように見えるものはあるか?
- 見落とした項目を見つけるための2回目の検出パスを実行する
- プロセスを文書化する
カスタムエンティティの設定、サンプルレビュー、処理ログがSafe Harborの記録を形成します。
まとめ
デフォルト設定の標準PIIツールでは、HIPAA Safe Harborの識別除去は完了しません。医療記録番号は病院固有です。カスタム検出が必要です。
カスタムエンティティの作成で、このギャップを数時間で解消できます。コンプライアンス担当者がパターンを定義し、テストし、データを処理できます。エンジニアリング作業は不要です。
「HIPAAツールを使った」と「18のSafe Harbor IDをすべて削除した」の差は、多くの場合、カスタムエンティティがひとつ不足しているだけです。