50%の検出漏れ問題
2025年の調査(arXiv:2509.14464)は、LLMツールを臨床記録でテストしました。結果は良くありませんでした。これらのツールは、多言語文書において臨床PHIの50%以上を見逃しました。原因は単純です。LLMはテキスト生成のために作られています。HIPAAが求める高い検出率のタスクのためには作られていません。
HIPAA Safe Harborは18種類の保護識別子を列挙しています。氏名、日付、電話番号、SSN、MRN、健康保険ID、デバイスID、IPアドレスなど。それぞれに専用の検出ロジックが必要です。
臨床メモはこれをさらに難しくします。この例を見てください:「Pt. John D., DOB 4/12/67, MRN 1234567, 03/15/24入院, Dr. Smithがエコーを指示。」1文の中に5つの保護識別子があります。ほとんどが略語を使っています。臨床的意味のために作られたモデルは、検出タスクで失敗することがよくあります。
LLMが見逃すものとその理由
LLMツールは臨床記録において決まったパターンで失敗します。
略語の識別子: 臨床メモは略語を使います。DOB、MRN、Pt.は一般的な形式です。臨床的意味に特化したモデルは「Pt. John D.」を名前として認識しないかもしれません。機密データの抽出には異なる目標が必要です。
文脈依存の日付: すべての日付が同じリスクを持つわけではありません。「67歳」は間接的な識別子です。「DOB 4/12/67」は直接的な保護識別子です。入院日としての「03/15/24」も保護対象です。パターンマッチングだけでは不十分です。
非米国フォーマット: Cyberhaven(2025年Q4)は、ChatGPTへの全入力の34.8%が機密データを含むことを発見しました。多言語PII も含まれます。医療分野では、非米国の記録ID、地域の日付形式、ローカルの健康ID種別が含まれます。米国データで訓練されたツールはこれらを一貫して見逃します。
病院固有の識別子: 病院は独自のMRN形式、スタッフID、施設コードを使用します。これらは標準的なNERトレーニングデータには含まれていません。カスタムエンティティ対応のないツールではこれらを検出できません。
研究データセットのリスク
500,000件のメモから研究データセットを構築する病院は、実際のコンプライアンス問題に直面します。HIPAAは匿名化データに「非常に低いリスク」の基準を求めています。保護識別子の半数を見逃すツールはこの基準を満たせません。
研究アーカイブはクリーンなデータではありません。メモは多くの診療科、期間、時には言語にまたがります。請求データで機能するツールは、ナラティブメモでは失敗することがあります。フリーテキストの機密データにはフィールドラベルがありません。
IRB承認にはさらなる要件があります。機関は使用した方法、削除した識別子の種類、実施したチェックを示す必要があります。記録の半数を見逃すツールではこれらの要件を満たせません。
anonym.legalがHIPAAワークフローをどのようにサポートするかについては、コンプライアンス概要とセキュリティ実践をご覧ください。
3層構造の解決策
2025年の調査は明確なパターンを発見しました。検出漏れ率が最も低いツールは3つの検出層を使用していました。
第1層 — 正規表現: 構造化された識別子を検出します。SSN、MRN、電話番号、健康保険ID。固定フォーマットで信頼性があります。
第2層 — NER: トランスフォーマーモデルを使用します。ナラティブテキスト内の名前、日付、機密データを検出します。正規表現が機能しない場所で動作します。
第3層 — カスタムエンティティ: サイト固有の形式を処理します。独自のMRNパターン、スタッフID、施設コード。標準モデルではこれらをカバーできません。
純粋なMLツールは略語や非英語テキストで性能が落ちます。純粋な正規表現ツールはフィールドラベルのない機密データを見逃します。どちらか単独では不十分です。
3層設計のみが調査で5%未満の検出漏れ率を達成しました。これがHIPAA Safe Harborコンプライアンスの基準です。
実装手順については、研究向けHIPAA Safe Harbor匿名化ガイドをご覧ください。