50%の検出漏れ問題

2025年の調査（arXiv:2509.14464）は、LLMツールを臨床記録でテストしました。結果は良くありませんでした。これらのツールは、多言語文書において臨床PHIの50%以上を見逃しました。原因は単純です。LLMはテキスト生成のために作られています。HIPAAが求める高い検出率のタスクのためには作られていません。

HIPAA Safe Harborは18種類の保護識別子を列挙しています。氏名、日付、電話番号、SSN、MRN、健康保険ID、デバイスID、IPアドレスなど。それぞれに専用の検出ロジックが必要です。

臨床メモはこれをさらに難しくします。この例を見てください：「Pt. John D., DOB 4/12/67, MRN 1234567, 03/15/24入院, Dr. Smithがエコーを指示。」1文の中に5つの保護識別子があります。ほとんどが略語を使っています。臨床的意味のために作られたモデルは、検出タスクで失敗することがよくあります。

LLMが見逃すものとその理由

LLMツールは臨床記録において決まったパターンで失敗します。

略語の識別子： 臨床メモは略語を使います。DOB、MRN、Pt.は一般的な形式です。臨床的意味に特化したモデルは「Pt. John D.」を名前として認識しないかもしれません。機密データの抽出には異なる目標が必要です。

文脈依存の日付： すべての日付が同じリスクを持つわけではありません。「67歳」は間接的な識別子です。「DOB 4/12/67」は直接的な保護識別子です。入院日としての「03/15/24」も保護対象です。パターンマッチングだけでは不十分です。

非米国フォーマット： Cyberhaven（2025年Q4）は、ChatGPTへの全入力の34.8%が機密データを含むことを発見しました。多言語PII も含まれます。医療分野では、非米国の記録ID、地域の日付形式、ローカルの健康ID種別が含まれます。米国データで訓練されたツールはこれらを一貫して見逃します。

病院固有の識別子： 病院は独自のMRN形式、スタッフID、施設コードを使用します。これらは標準的なNERトレーニングデータには含まれていません。カスタムエンティティ対応のないツールではこれらを検出できません。

研究データセットのリスク

500,000件のメモから研究データセットを構築する病院は、実際のコンプライアンス問題に直面します。HIPAAは匿名化データに「非常に低いリスク」の基準を求めています。保護識別子の半数を見逃すツールはこの基準を満たせません。

研究アーカイブはクリーンなデータではありません。メモは多くの診療科、期間、時には言語にまたがります。請求データで機能するツールは、ナラティブメモでは失敗することがあります。フリーテキストの機密データにはフィールドラベルがありません。

IRB承認にはさらなる要件があります。機関は使用した方法、削除した識別子の種類、実施したチェックを示す必要があります。記録の半数を見逃すツールではこれらの要件を満たせません。

anonym.legalがHIPAAワークフローをどのようにサポートするかについては、コンプライアンス概要とセキュリティ実践をご覧ください。

3層構造の解決策

2025年の調査は明確なパターンを発見しました。検出漏れ率が最も低いツールは3つの検出層を使用していました。

第1層 — 正規表現： 構造化された識別子を検出します。SSN、MRN、電話番号、健康保険ID。固定フォーマットで信頼性があります。

第2層 — NER： トランスフォーマーモデルを使用します。ナラティブテキスト内の名前、日付、機密データを検出します。正規表現が機能しない場所で動作します。

第3層 — カスタムエンティティ： サイト固有の形式を処理します。独自のMRNパターン、スタッフID、施設コード。標準モデルではこれらをカバーできません。

純粋なMLツールは略語や非英語テキストで性能が落ちます。純粋な正規表現ツールはフィールドラベルのない機密データを見逃します。どちらか単独では不十分です。

3層設計のみが調査で5%未満の検出漏れ率を達成しました。これがHIPAA Safe Harborコンプライアンスの基準です。

実装手順については、研究向けHIPAA Safe Harbor匿名化ガイドをご覧ください。

出典

データを保護する準備はできましたか？

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

無料トライアルを開始機能を見る

なぜLLMは臨床PHIの50%を見逃すのか — そして研究が示すより良い非識別化について

50%の検出漏れ問題

LLMが見逃すものとその理由

研究データセットのリスク

3層構造の解決策

出典

関連する記事

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

データを保護する準備はできましたか？

なぜLLMは臨床PHIの50%を見逃すのか — そして研究が示すより良い非識別化について

50%の検出漏れ問題

LLMが見逃すものとその理由

研究データセットのリスク

3層構造の解決策

出典

関連する記事

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

データを保護する準備はできましたか？

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow