By · Last updated 2026-04-02

ブログに戻る医療

なぜLLMは臨床PHIの50%を見逃すのか — そして研究が示すより良い非識別化について

2025年の研究では、LLMが多言語文書において臨床PHIの50%以上を見逃すことが判明しました。全ChatGPT入力の34.8%が機密データを含んでいます。HIPAAのセーフハーバー非識別化は、18種類の特定の識別子を削除することを要求します — 一般的なLLMはこれを信頼性高く行うことができません。

April 2, 20269 分で読めます
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

50%の検出漏れ問題

2025年の調査(arXiv:2509.14464)は、LLMツールを臨床記録でテストしました。結果は良くありませんでした。これらのツールは、多言語文書において臨床PHIの50%以上を見逃しました。原因は単純です。LLMはテキスト生成のために作られています。HIPAAが求める高い検出率のタスクのためには作られていません。

HIPAA Safe Harborは18種類の保護識別子を列挙しています。氏名、日付、電話番号、SSN、MRN、健康保険ID、デバイスID、IPアドレスなど。それぞれに専用の検出ロジックが必要です。

臨床メモはこれをさらに難しくします。この例を見てください:「Pt. John D., DOB 4/12/67, MRN 1234567, 03/15/24入院, Dr. Smithがエコーを指示。」1文の中に5つの保護識別子があります。ほとんどが略語を使っています。臨床的意味のために作られたモデルは、検出タスクで失敗することがよくあります。

LLMが見逃すものとその理由

LLMツールは臨床記録において決まったパターンで失敗します。

略語の識別子: 臨床メモは略語を使います。DOB、MRN、Pt.は一般的な形式です。臨床的意味に特化したモデルは「Pt. John D.」を名前として認識しないかもしれません。機密データの抽出には異なる目標が必要です。

文脈依存の日付: すべての日付が同じリスクを持つわけではありません。「67歳」は間接的な識別子です。「DOB 4/12/67」は直接的な保護識別子です。入院日としての「03/15/24」も保護対象です。パターンマッチングだけでは不十分です。

非米国フォーマット: Cyberhaven(2025年Q4)は、ChatGPTへの全入力の34.8%が機密データを含むことを発見しました。多言語PII も含まれます。医療分野では、非米国の記録ID、地域の日付形式、ローカルの健康ID種別が含まれます。米国データで訓練されたツールはこれらを一貫して見逃します。

病院固有の識別子: 病院は独自のMRN形式、スタッフID、施設コードを使用します。これらは標準的なNERトレーニングデータには含まれていません。カスタムエンティティ対応のないツールではこれらを検出できません。

研究データセットのリスク

500,000件のメモから研究データセットを構築する病院は、実際のコンプライアンス問題に直面します。HIPAAは匿名化データに「非常に低いリスク」の基準を求めています。保護識別子の半数を見逃すツールはこの基準を満たせません。

研究アーカイブはクリーンなデータではありません。メモは多くの診療科、期間、時には言語にまたがります。請求データで機能するツールは、ナラティブメモでは失敗することがあります。フリーテキストの機密データにはフィールドラベルがありません。

IRB承認にはさらなる要件があります。機関は使用した方法、削除した識別子の種類、実施したチェックを示す必要があります。記録の半数を見逃すツールではこれらの要件を満たせません。

anonym.legalがHIPAAワークフローをどのようにサポートするかについては、コンプライアンス概要セキュリティ実践をご覧ください。

3層構造の解決策

2025年の調査は明確なパターンを発見しました。検出漏れ率が最も低いツールは3つの検出層を使用していました。

第1層 — 正規表現: 構造化された識別子を検出します。SSN、MRN、電話番号、健康保険ID。固定フォーマットで信頼性があります。

第2層 — NER: トランスフォーマーモデルを使用します。ナラティブテキスト内の名前、日付、機密データを検出します。正規表現が機能しない場所で動作します。

第3層 — カスタムエンティティ: サイト固有の形式を処理します。独自のMRNパターン、スタッフID、施設コード。標準モデルではこれらをカバーできません。

純粋なMLツールは略語や非英語テキストで性能が落ちます。純粋な正規表現ツールはフィールドラベルのない機密データを見逃します。どちらか単独では不十分です。

3層設計のみが調査で5%未満の検出漏れ率を達成しました。これがHIPAA Safe Harborコンプライアンスの基準です。

実装手順については、研究向けHIPAA Safe Harbor匿名化ガイドをご覧ください。

出典

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.