正規表現の知識なしでHIPAA MRNを検出する
あなたの病院の医療記録番号(MRN)形式は、どの標準的なPIIツールにも含まれていません。コード不要で、5分で追加する方法を紹介します。
医療ITチームは、他の分野には存在しないHIPAAの課題に直面しています。最も検出が必要な識別子であるMRNは、各医療機関が独自に定義しています。全国統一の標準規格はありません。
すべてのHIPAA匿名化プロジェクトにはカスタム設定が必要です。なければ、MRNは「匿名化済み」のファイルから検出されずに漏れてしまいます。
複数施設ネットワークにおけるMRNの問題
買収を通じて成長した病院ネットワークは、古いEHRシステムを引き継いでいます。各システムには独自のMRN形式があります:
- Memorial Hospital(Epic):MRN:XXXXXXX — プレフィックス付き7桁の番号
- St. Mary's(Cerner):PT-YYYYY — 患者プレフィックス付き5桁
- University Hospital(Meditech):UHN-XXXXXXXXXX — 10文字の英数字
- 提携クリニック(独立EMR):C\d{5} — 文字Cに続く5桁の数字
HIPAA Safe Harborは18種類すべての識別子の削除を求めています。カテゴリ8が医療記録番号です。あなたの形式を知らないツールはそれを見落とします。ファイルはきれいに見えますが、実際はそうではありません。
ServiceNowの医療コミュニティはまさにこの問題を文書化しています。標準ツールはSSNや電話番号を検出しますが、施設固有のMRNは毎回見落とします。
正規表現の壁
Microsoft Presidio(多くのHIPAAツールのオープンソース基盤)にカスタムルールを追加するには、実際の技術スキルが必要です:
- PatternRecognizerクラスの理解
- Python構文での正規表現の記述
- YAMLの設定ファイルのセットアップ
- 信頼スコアの調整
- Pythonスクリプトのテストとデバッグ
MRN形式を知っているコンプライアンス担当者でも、これを一人でこなすことはできません。結果として、エンジニアリングチケットが6〜8週間の待ち行列に入ります。コンプライアンスの空白は開いたままです。
AIによるパターン生成
より速い方法があります。パターンを平易な言葉で説明する。動作する正規表現が返ってくる。
手順:
- カスタムエンティティビルダーを開く
- 例を提供する:「私たちのシステムのMRNはこのようなものです:MRN:1234567, MRN:9876543, MRN:0001234」
- AIがルールを生成:MRN:\d{7}
- 10件のサンプル記録でテスト
- すべてのMRNが検出された?保存してデプロイ。
4つのMRN形式を持つネットワークの場合:
- Memorial Hospital → MRN:\d{7}
- St. Mary's → PT-\d{5}
- University Hospital → UHN-[A-Z0-9]{10}
- クリニック → C\d{5}
4つのカスタムエンティティを作成。プリセットにグループ化。すべての文書に適用。所要時間:半日。
ステップバイステップガイドはコードなしでHIPAAパイプラインにカスタムMRN検出を追加するを参照してください。
Safe Harbor認証のための検証
HIPAA Safe Harborは、対象事業者がデータが個人を特定するために使用できるという「実際の知識」を持たないことを求めています。(45 CFR §164.514(b))
検証により、カスタムルールが18種類すべての識別子をカバーしていることが示されます。
ステップ1:サンプルの抽出。 各施設から100件の記録を取得。時期と診療科を混在させる。
ステップ2:検出の実行。 400件すべての文書をカスタムルールで処理する。
ステップ3:手動確認。 20件の文書を手作業で確認(5%サンプル)。検出されなかったMRNと誤検知を探す。
ステップ4:ルールの改善。 MRNの見落としがある場合はパターンを広げる。誤検知が多い場合は単語境界を追加する。
ステップ5:文書化。 ルール、サンプルサイズ、結果、日付を記録する。この記録がSafe Harborの証跡となります。
文書化要件の詳細については説明可能な編集とHIPAA監査証跡を参照してください。
Safe Harborの完全なカバレッジ
MRNの空白を埋めた後、18カテゴリすべてを確認してください。
| カテゴリ | 標準ツール | カスタム設定が必要? |
|---|---|---|
| 1. 氏名 | NERモデル | 不要 |
| 2. 地理データ | 位置情報検出 | 州は不要;施設コードは必要 |
| 3. 日付 | 日付検出 | 不要 |
| 4. 電話番号 | 電話検出 | 不要 |
| 5. FAX番号 | 電話検出 | 不要 |
| 6. メールアドレス | メール検出 | 不要 |
| 7. SSN | SSN検出 | 不要 |
| 8. 医療記録番号 | 組み込みなし | 必要 — 施設固有 |
| 9. 健康保険受給者番号 | 部分的 | 多くの場合必要 — 保険者固有 |
| 10. 口座番号 | 部分的 | 多くの場合必要 — 請求フォーマット |
| 11. 免許番号 | 部分的 | 多くの場合必要 — 州固有 |
| 12. 車両識別子 | 部分的 | 臨床文書では稀 |
| 13. デバイス識別子 | 部分的 | 機器が記録されている場合は必要 |
| 14. Web URL | URL検出 | 不要 |
| 15. IPアドレス | IP検出 | 不要 |
| 16. 生体認証識別子 | テキストコンテキスト | 退院サマリでは稀 |
| 17. 顔写真 | 画像のみ | テキスト処理の対象外 |
| 18. その他の一意識別子 | 組み込みなし | 必要 — 施設固有 |
臨床テキストでは、カテゴリ8、9、10、18が最もカスタム設定を必要とします。
臨床文書のコンテキスト
退院サマリ、診療記録、手術記録は研究のために共有される主要な文書です。これらには以下が含まれます:
- ヘッダーとフッターのMRN
- 請求セクションの口座番号
- すべてのイベントの日付 — 入院、処置、検査、投薬
- 医師名とDEA番号
- 紹介医の情報
- 健康保険の会員番号
施設固有の形式に対するカスタムルールは、標準形式に対する組み込みルールと組み合わせて機能します。この組み合わせによって、HIPAA Safe Harborが求める完全なカバレッジが実現します。
まとめ
カスタムルールなしのHIPAA匿名化はSafe Harbor匿名化ではありません。各医療機関のMRN形式は固有です。標準ツールはそれを見落とします。コンプライアンスの空白は実在し、あなたが対処するまで開いたままです。
AIによるパターン生成は、6〜8週間のエンジニアリング作業を1回のコンプライアンス作業の午後に短縮します。形式を説明する。実際の記録でテストする。デプロイする。完了。