By · Last updated 2026-06-04

Zpět na blogZdravotnictví

Detekce MRN podle HIPAA bez doktorátu z regulárních výrazů

Formát MRN každé nemocnice je jiný. Memorial používá MRN:XXXXXXX, St. Mary's používá PT-YYYYY, University Hospital používá UHN-XXXXXXXXXX.

June 4, 20266 min čtení
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

Detekce MRN podle HIPAA bez doktorátu z regulárních výrazů

Formát MRN vaší nemocnice není v žádném standardním nástroji pro PII. Zde je návod, jak ho přidat za pět minut. Bez psaní kódu.

IT týmy ve zdravotnictví čelí problému s HIPAA, který jiná odvětví nemají. Identifikátor, který nejvíce potřebují najít — číslo zdravotního záznamu (MRN) — stanovuje jejich vlastní nemocnice. Žádný národní standard neexistuje.

Každý projekt de-identifikace podle HIPAA vyžaduje vlastní nastavení. Bez něj MRN proklouznou „de-identifikovanými” soubory neodhalena.

Problém MRN ve vícezařízení

Nemocniční sítě vybudované prostřednictvím fúzí mají starší systémy EHR. Každý systém má vlastní formát MRN:

  • Memorial Hospital (Epic): MRN:XXXXXXX — 7místné číslo s prefixem
  • St. Mary's (Cerner): PT-YYYYY — 5místné s prefixem pacienta
  • University Hospital (Meditech): UHN-XXXXXXXXXX — 10znakový mix
  • Klinika (samostatný EMR): C\d{5} — písmeno C plus 5 číslic

HIPAA Safe Harbor vyžaduje odstranění všech 18 typů identifikátorů. Kategorie 8 jsou čísla zdravotních záznamů. Nástroj, který nezná váš formát, je přehlédne. Soubor vypadá čistě. Není.

Komunita ServiceNow pro zdravotnictví tento přesný problém zaznamenala. Standardní nástroje zachytí rodná čísla a telefonní čísla. MRN zařízení přehlédnou pokaždé.

Bariéra regulárních výrazů

Přidání vlastních pravidel do Microsoft Presidio — open-source základu pro mnoho nástrojů HIPAA — vyžaduje skutečné dovednosti:

  • Musíte znát třídu PatternRecognizer
  • Musíte psát regulární výrazy v syntaxi Pythonu
  • Musíte nastavit konfigurační soubory YAML
  • Musíte ladit skóre spolehlivosti
  • Musíte testovat a ladit Python skripty

Compliance officer, který zná formát MRN, to sám nezvládne. Oprava skončí jako ticket pro inženýry. Čeká se 6–8 týdnů. Mezera zůstává otevřená.

Generování vzorů pomocí AI

Existuje rychlejší způsob. Popište vzor prostými slovy. Získejte funkční regulární výraz zpět.

Postup:

  1. Otevřete nástroj pro tvorbu vlastních entit
  2. Zadejte příklady: „Naše MRN vypadají takto: MRN:1234567, MRN:9876543, MRN:0001234”
  3. AI vytvoří pravidlo: MRN:\d{7}
  4. Otestujte na 10 vzorových záznamech
  5. Všechna MRN nalezena? Uložte a nasaďte.

Pro síť se čtyřmi formáty MRN:

  • Memorial Hospital → MRN:\d{7}
  • St. Mary's → PT-\d{5}
  • University Hospital → UHN-[A-Z0-9]{10}
  • Klinika → C\d{5}

Vytvořte čtyři vlastní entity. Seskupte je do přednastavení. Spusťte na všech souborech. Čas: jedno odpoledne.

Viz vlastní detekce MRN v pipeline HIPAA bez kódu pro kompletní průvodce.

Validace pro Safe Harbor

HIPAA Safe Harbor říká, že subjekt musí mít „skutečnou znalost” toho, zda by data mohla identifikovat osobu. (45 CFR §164.514(b))

Validace prokazuje, že vaše vlastní pravidla pokrývají všech 18 typů identifikátorů.

Krok 1: Vytáhněte vzorky. Získejte 100 záznamů z každého pracoviště. Promíchejte časová období a oddělení.

Krok 2: Spusťte detekci. Zpracujte všech 400 dokumentů pomocí vlastních pravidel.

Krok 3: Ruční kontrola. Zkontrolujte 20 dokumentů ručně (5% vzorek). Hledejte chybějící MRN a falešné shody.

Krok 4: Upřesněte pravidla. Chybějí MRN? Rozšiřte vzor. Příliš mnoho falešných shod? Přidejte hranice slov.

Krok 5: Zapište to. Zaznamenejte pravidlo, velikost vzorku, výsledky a datum. Tento záznam je vaším dokladem Safe Harbor.

Viz vysvětlitelná redakce a auditní stopy HIPAA pro více informací o tom, co dokumentovat.

Úplné pokrytí Safe Harbor

Po opravení detekce MRN zkontrolujte všech 18 kategorií.

KategorieStandardní nástrojeNutné vlastní nastavení?
1. JménaModel NERNe
2. Geografická dataDetekce polohyNe pro stát; Ano pro kódy pracovišť
3. DataDetekce dataNe
4. Telefonní číslaDetekce telefonuNe
5. Čísla faxuDetekce telefonuNe
6. E-mailové adresyDetekce e-mailuNe
7. Rodná číslaDetekce rodného číslaNe
8. Čísla zdravotních záznamůNení zabudovánoAno — specifické pro pracoviště
9. Čísla členů zdravotního plánuČástečněČasto ano — specifické pro plátce
10. Čísla účtůČástečněČasto ano — formát fakturace
11. Čísla licencíČástečněČasto ano — specifické pro stát
12. Identifikátory vozidelČástečněVzácné v klinických dokumentech
13. Identifikátory zařízeníČástečněAno pokud jsou zařízení v záznamech
14. Webové adresy URLDetekce URLNe
15. IP adresyDetekce IPNe
16. Biometrické identifikátoryTextový kontextVzácné ve výpisných zprávách
17. FotografiePouze obrázkyMimo rozsah pro text
18. Ostatní jedinečné identifikátoryNení zabudovánoAno — specifické pro pracoviště

U klinického textu nejčastěji vyžadují vlastní nastavení kategorie 8, 9, 10 a 18.

Kontext klinického dokumentu

Propouštěcí zprávy, klinické poznámky a operační zprávy jsou hlavní soubory sdílené pro výzkum. Obsahují:

  • MRN v záhlavích a zápatích
  • Čísla účtů v fakturačních sekcích
  • Data všech událostí — přijetí, výkon, laboratorní test, medikace
  • Jména lékařů a čísla DEA
  • Informace o odesílajícím lékaři
  • ID členů pojištění

Vlastní pravidla pro formáty specifické pro pracoviště se kombinují se zabudovanými pravidly pro standardní formáty. Tato kombinace poskytuje úplné pokrytí Safe Harbor.

Závěr

De-identifikace podle HIPAA bez vlastních pravidel není de-identifikace Safe Harbor. Formát MRN každé nemocnice je jedinečný. Standardní nástroje je přehlédnou. Mezera v souladu s předpisy je reálná a zůstává otevřená, dokud ji neuzavřete.

Generování vzorů pomocí AI zkrátí opravu z 6–8 týdnů inženýrské práce na jedno odpoledne práce na compliance. Popište formát. Otestujte ho na reálných záznamech. Nasaďte ho. Hotovo.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.