By · Last updated 2026-06-04

ブログに戻る医療

HIPAA MRN AI: パターン生成とカスタムエンティティ

AIを使用した病院固有MRN(医療記録番号)パターンの自動生成と、カスタムエンティティの動的追加。

June 4, 20266 分で読めます
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

正規表現の知識なしでHIPAA MRNを検出する

あなたの病院の医療記録番号(MRN)形式は、どの標準的なPIIツールにも含まれていません。コード不要で、5分で追加する方法を紹介します。

医療ITチームは、他の分野には存在しないHIPAAの課題に直面しています。最も検出が必要な識別子であるMRNは、各医療機関が独自に定義しています。全国統一の標準規格はありません。

すべてのHIPAA匿名化プロジェクトにはカスタム設定が必要です。なければ、MRNは「匿名化済み」のファイルから検出されずに漏れてしまいます。

複数施設ネットワークにおけるMRNの問題

買収を通じて成長した病院ネットワークは、古いEHRシステムを引き継いでいます。各システムには独自のMRN形式があります:

  • Memorial Hospital(Epic):MRN:XXXXXXX — プレフィックス付き7桁の番号
  • St. Mary's(Cerner):PT-YYYYY — 患者プレフィックス付き5桁
  • University Hospital(Meditech):UHN-XXXXXXXXXX — 10文字の英数字
  • 提携クリニック(独立EMR):C\d{5} — 文字Cに続く5桁の数字

HIPAA Safe Harborは18種類すべての識別子の削除を求めています。カテゴリ8が医療記録番号です。あなたの形式を知らないツールはそれを見落とします。ファイルはきれいに見えますが、実際はそうではありません。

ServiceNowの医療コミュニティはまさにこの問題を文書化しています。標準ツールはSSNや電話番号を検出しますが、施設固有のMRNは毎回見落とします。

正規表現の壁

Microsoft Presidio(多くのHIPAAツールのオープンソース基盤)にカスタムルールを追加するには、実際の技術スキルが必要です:

  • PatternRecognizerクラスの理解
  • Python構文での正規表現の記述
  • YAMLの設定ファイルのセットアップ
  • 信頼スコアの調整
  • Pythonスクリプトのテストとデバッグ

MRN形式を知っているコンプライアンス担当者でも、これを一人でこなすことはできません。結果として、エンジニアリングチケットが6〜8週間の待ち行列に入ります。コンプライアンスの空白は開いたままです。

AIによるパターン生成

より速い方法があります。パターンを平易な言葉で説明する。動作する正規表現が返ってくる。

手順:

  1. カスタムエンティティビルダーを開く
  2. 例を提供する:「私たちのシステムのMRNはこのようなものです:MRN:1234567, MRN:9876543, MRN:0001234」
  3. AIがルールを生成:MRN:\d{7}
  4. 10件のサンプル記録でテスト
  5. すべてのMRNが検出された?保存してデプロイ。

4つのMRN形式を持つネットワークの場合:

  • Memorial Hospital → MRN:\d{7}
  • St. Mary's → PT-\d{5}
  • University Hospital → UHN-[A-Z0-9]{10}
  • クリニック → C\d{5}

4つのカスタムエンティティを作成。プリセットにグループ化。すべての文書に適用。所要時間:半日。

ステップバイステップガイドはコードなしでHIPAAパイプラインにカスタムMRN検出を追加するを参照してください。

Safe Harbor認証のための検証

HIPAA Safe Harborは、対象事業者がデータが個人を特定するために使用できるという「実際の知識」を持たないことを求めています。(45 CFR §164.514(b))

検証により、カスタムルールが18種類すべての識別子をカバーしていることが示されます。

ステップ1:サンプルの抽出。 各施設から100件の記録を取得。時期と診療科を混在させる。

ステップ2:検出の実行。 400件すべての文書をカスタムルールで処理する。

ステップ3:手動確認。 20件の文書を手作業で確認(5%サンプル)。検出されなかったMRNと誤検知を探す。

ステップ4:ルールの改善。 MRNの見落としがある場合はパターンを広げる。誤検知が多い場合は単語境界を追加する。

ステップ5:文書化。 ルール、サンプルサイズ、結果、日付を記録する。この記録がSafe Harborの証跡となります。

文書化要件の詳細については説明可能な編集とHIPAA監査証跡を参照してください。

Safe Harborの完全なカバレッジ

MRNの空白を埋めた後、18カテゴリすべてを確認してください。

カテゴリ標準ツールカスタム設定が必要?
1. 氏名NERモデル不要
2. 地理データ位置情報検出州は不要;施設コードは必要
3. 日付日付検出不要
4. 電話番号電話検出不要
5. FAX番号電話検出不要
6. メールアドレスメール検出不要
7. SSNSSN検出不要
8. 医療記録番号組み込みなし必要 — 施設固有
9. 健康保険受給者番号部分的多くの場合必要 — 保険者固有
10. 口座番号部分的多くの場合必要 — 請求フォーマット
11. 免許番号部分的多くの場合必要 — 州固有
12. 車両識別子部分的臨床文書では稀
13. デバイス識別子部分的機器が記録されている場合は必要
14. Web URLURL検出不要
15. IPアドレスIP検出不要
16. 生体認証識別子テキストコンテキスト退院サマリでは稀
17. 顔写真画像のみテキスト処理の対象外
18. その他の一意識別子組み込みなし必要 — 施設固有

臨床テキストでは、カテゴリ8、9、10、18が最もカスタム設定を必要とします。

臨床文書のコンテキスト

退院サマリ、診療記録、手術記録は研究のために共有される主要な文書です。これらには以下が含まれます:

  • ヘッダーとフッターのMRN
  • 請求セクションの口座番号
  • すべてのイベントの日付 — 入院、処置、検査、投薬
  • 医師名とDEA番号
  • 紹介医の情報
  • 健康保険の会員番号

施設固有の形式に対するカスタムルールは、標準形式に対する組み込みルールと組み合わせて機能します。この組み合わせによって、HIPAA Safe Harborが求める完全なカバレッジが実現します。

まとめ

カスタムルールなしのHIPAA匿名化はSafe Harbor匿名化ではありません。各医療機関のMRN形式は固有です。標準ツールはそれを見落とします。コンプライアンスの空白は実在し、あなたが対処するまで開いたままです。

AIによるパターン生成は、6〜8週間のエンジニアリング作業を1回のコンプライアンス作業の午後に短縮します。形式を説明する。実際の記録でテストする。デプロイする。完了。

情報源

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.