HIPAAセーフハーバーによる大規模な非識別化:医療研究者のための実用ガイド
学術医療センターのIRB承認を受けた研究プロジェクトでは、再入院予測のMLモデルのために20万件の退院記録の非識別化が必要です。既存のHIPAA非識別化ツールは年間12万ドルかかります。データ処理のために割り当てられた研究助成金の予算は5,000ドルです。
このシナリオは一般的です。医療研究は貴重な洞察を生み出します — 再入院予測モデル、治療結果研究、薬効分析 — それには統計的に意味のある大規模で代表的なデータセットが必要です。それらのデータセットには保護された健康情報(PHI)が含まれています。非識別化は患者のプライバシーを保護しながら研究を可能にします。しかし、大規模な非識別化のために利用可能なツールは、大規模病院システム向けに価格設定されており、研究予算には適していません。
HIPAAセーフハーバー:削除しなければならないもの
HIPAAのセーフハーバー非識別化方法(45 CFR §164.514(b))は、健康情報が「保護された」地位を失い、個人の承認なしに研究に使用できるようになる前に削除しなければならない18のPHIカテゴリを指定しています:
- 名前
- 地理データ(州より小さいすべて;小規模な人口のために郵便番号は3桁に切り詰める必要があります)
- 日付(年を除く) — 入院日、退院日、生年月日、死亡日、その他すべての日付
- 電話番号
- ファックス番号
- メールアドレス
- 社会保障番号
- 医療記録番号
- 健康保険受益者番号
- アカウント番号
- 証明書/ライセンス番号
- 車両識別子およびシリアル番号
- デバイス識別子およびシリアル番号
- ウェブURL
- IPアドレス
- 生体識別子(指紋、音声印)
- 顔全体の写真および同等の画像
- その他のユニークな識別番号、特性、またはコード
最初の5つの識別子(名前、地理データ、日付、電話番号、ファックス番号)はほぼすべての退院記録に現れます。これらはすべて削除または修正する必要があります。
日付に関する注意: これは、最も運用上複雑なセーフハーバー要件の1つです。生年月日だけでなく、患者のケアに関連するすべての日付は、年を保持し、特定の日付を削除または一般化する必要があります。「2023年3月15日」と記載された退院記録は「2023年」になります。入院期間は、基礎となる日付が削除されている場合、計算フィールドとして保持される可能性があります。
学術研究におけるスケールの問題
医療において統計的に有意な結果を生み出す研究データセットは通常、次のような要件があります:
- 再入院予測:50,000〜500,000件の患者遭遇
- 治療結果分析:状態ごとに10,000〜100,000人の患者
- 薬効研究:5,000〜50,000件の患者記録
- 集団健康分析:100,000件以上の遭遇
このスケールでの手動非識別化は実現不可能です:
- 1件あたり5分のレビューでも、10万件の記録には250〜2,500営業日が必要です
- 手動レビューは1〜5%のヒューマンエラー率を導入します — 識別可能な記録の小さな割合でもHIPAAの責任を生じさせる研究データセットには受け入れられません
- データセット全体での不一致な適用(1人のレビュアーが日付を異なって扱う)は、セーフハーバーの資格を損ないます
代替手段 — 自動非識別化 — は、臨床文書に見られるさまざまな形式のすべての18の識別子カテゴリを検出するのに十分に高度なツールを必要とします。
現在のツールの状況と価格ギャップ
エンタープライズHIPAA非識別化ツール:
- Datavant: 大規模医療機関向けに年間10万ドル以上
- Veradigm(Allscripts)非識別化:同様のエンタープライズ価格
- Clinithink CLiX:販売価格を問い合わせ
- Syntegra(合成データ生成):エンタープライズ価格
これらのツールは、年間何百万件の記録を処理する病院システム向けに設計されており、コンプライアンスチーム、法務部門、エンタープライズ調達能力を備えています。これらは助成金予算のある学術研究者にはアクセスできません。
無料/オープンソースオプション:
- MITRE Identification Scrubber Toolkit(MIST):無料ですが、かなりの技術的セットアップが必要で、言語サポートが限られています
- Stanford NLP DEID:研究グレードで、Java/プログラミングの専門知識が必要
- i2b2 NLPツール:臨床NLPツール、技術的セットアップが必要
ギャップ: 学術医療センターは、最小限の技術的セットアップで信頼性が高く正確な非識別化を必要としています。オープンソースツールは、構成と検証に計算言語学の専門知識を必要とします。エンタープライズツールは、研究プロジェクトが持っていない予算を必要とします。
実用的アプローチ:逐次実行でのバッチ処理
20万件の退院記録のデータセットの場合:
ステップ1:EHRからのデータエクスポート 構造化データおよび非構造化データフィールドを患者の遭遇ごとにテキストファイルまたはPDF記録にエクスポートします。ほとんどのEHRシステム(Epic、Cerner、Meditech)は、臨床ノート用の別々のテキストフィールドを持つCSV/HL7形式で構造化データのエクスポートをサポートしています。
ステップ2:逐次実行でのバッチ非識別化 5,000件の記録のバッチで処理します — 効率的であるのに十分大きく、各段階での品質レビューを可能にするのに十分小さいです。
HIPAAセーフハーバーのためのエンティティタイプを設定します:
- PERSON(患者名、ノートに記載された家族名)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION(州より小さい地理的エンティティ — 住所、郵便番号、都市)
- DATE(すべての臨床日 — 年齢一般化を適用:89歳以上の患者は「89歳以上」になります)
- HEALTHCARE_ID(保険メンバー番号、受益者番号)
- ACCOUNT_NUMBER
ステップ3:日付の取り扱い(専門的) 日付は削除を超えた特定の取り扱いが必要です:
- 年を保持
- 月と日を削除
- 年齢計算のため:年齢が89歳を超える場合、稀な年齢-疾患の組み合わせによる再識別を防ぐために、正確な年齢を「> 89」に置き換えます
- 日付の差から期間フィールド(入院期間、再入院までの日数)を計算し、その後元の日付を削除します
このステップでは、日付を削除する前に導出フィールドを計算するための専門的な後処理スクリプトが必要になる場合があります。
ステップ4:検証サンプリング 5,000件の記録ごとにサンプル50件を人間のレビューのために抽出します:
- すべての18の識別子カテゴリが削除されていることを確認
- コンテキスト特有の識別子(臨床ノートの研究者名、紹介医の詳細)をチェック
- 日付の取り扱いがセーフハーバー要件に一致していることを検証
ステップ5:認証 HIPAAは、適切な統計的または科学的知識を持つ者が再識別の可能性が非常に小さいことを判断することを要求します。セーフハーバーの場合、18カテゴリの削除を適用するエンティティがコンプライアンスを認証します。プロセス、エンティティタイプの設定、IRB記録のための検証サンプリングを文書化します。
コスト分析:研究予算 vs. エンタープライズツール
エンタープライズHIPAA非識別化ツール:年間12万ドル セットアップ、トレーニング、無制限の処理、コンプライアンス文書サポートを含みます。
バッチ処理アプローチ:
- 20万件の記録 × 平均300語/記録 = 60,000,000トークン
- €0.0001/トークンの場合:処理コストは€6,000
- プロフェッショナルプラン(€180/年)またはビジネスプラン(€348/年)をプロジェクト期間中に
- 検証のための研究者の時間:20〜40時間、ポスドクの料金で
- 合計:約€7,000〜8,000
エンタープライズツールに対する年間の節約額:$111,000〜113,000。
12万ドルのコストがかかる研究が7,000ドルで実現可能になり、助成金予算がデータ処理と研究者の時間の両方をカバーします。
重要な注意点
このアプローチはテキストベースのPHI非識別化に適しています。 画像、音声録音、生体データ(セーフハーバーカテゴリ13、16、17)は、テキスト処理を超えた専門的なツールを必要とします。
検証が必要です。 自動ツールは100%正確ではありません。20万件の記録で0.1%の見逃し率は、残存PHIを持つ200件の記録を意味します — 依然として重要なHIPAAリスクです。検証サンプリングステップはオプションではありません。
あなたの機関のプライバシーオフィスがレビューする必要があります。 研究のIRB承認は、自動的に非識別化アプローチを認可するものではありません。ほとんどの学術医療センターには、非識別化方法論をレビューするプライバシーオフィスまたはIRBがあります。このガイダンスは、機関のレビューを補完するものであり、置き換えるものではありません。
専門家の判断を代替手段として考慮してください。 HIPAAは「専門家の判断」による非識別化も許可しています(45 CFR §164.514(b)(1)) — 再識別リスクが非常に小さいことを認証する統計専門家。このアプローチは、セーフハーバーのカテゴリ削除が方法論的問題を引き起こす異常なデータセットにより適している場合があります(すべての日付を削除すると時間的分析が不可能になります)。
結論
患者の結果を改善できる医療研究は、現在HIPAA非識別化コストによってボトルネックになっています。学術研究者にとって唯一の手頃な選択肢が手動非識別化(スケールでは実現不可能)または高価なエンタープライズツール(助成金予算を超える)である場合、研究データセットはロックされたままか、十分に非識別化されていません。
トークンベースの価格設定を使用したバッチ非識別化により、20万件の記録の研究データセットが経済的に実現可能になります。大規模病院システムに利用可能な同じ統計的精度が、学術医療センター、独立研究者、および品質改善研究に従事する小規模医療機関にアクセス可能になります。
出典: