Zpět na blogZdravotnictví

Detekce MRN podle HIPAA bez doktorátu z regulárních výrazů

Formát MRN každé nemocnice je jiný. Memorial používá MRN:XXXXXXX, St. Mary's používá PT-YYYYY, University Hospital používá UHN-XXXXXXXXXX.

George CurtaJune 4, 20266 min čtení

HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

Detekce MRN podle HIPAA bez doktorátu z regulárních výrazů

Formát MRN vaší nemocnice není v žádném standardním nástroji pro PII. Zde je návod, jak ho přidat za pět minut. Bez psaní kódu.

IT týmy ve zdravotnictví čelí problému s HIPAA, který jiná odvětví nemají. Identifikátor, který nejvíce potřebují najít — číslo zdravotního záznamu (MRN) — stanovuje jejich vlastní nemocnice. Žádný národní standard neexistuje.

Každý projekt de-identifikace podle HIPAA vyžaduje vlastní nastavení. Bez něj MRN proklouznou „de-identifikovanými” soubory neodhalena.

Problém MRN ve vícezařízení

Nemocniční sítě vybudované prostřednictvím fúzí mají starší systémy EHR. Každý systém má vlastní formát MRN:

Memorial Hospital (Epic): MRN:XXXXXXX — 7místné číslo s prefixem
St. Mary's (Cerner): PT-YYYYY — 5místné s prefixem pacienta
University Hospital (Meditech): UHN-XXXXXXXXXX — 10znakový mix
Klinika (samostatný EMR): C\d{5} — písmeno C plus 5 číslic

HIPAA Safe Harbor vyžaduje odstranění všech 18 typů identifikátorů. Kategorie 8 jsou čísla zdravotních záznamů. Nástroj, který nezná váš formát, je přehlédne. Soubor vypadá čistě. Není.

Komunita ServiceNow pro zdravotnictví tento přesný problém zaznamenala. Standardní nástroje zachytí rodná čísla a telefonní čísla. MRN zařízení přehlédnou pokaždé.

Bariéra regulárních výrazů

Přidání vlastních pravidel do Microsoft Presidio — open-source základu pro mnoho nástrojů HIPAA — vyžaduje skutečné dovednosti:

Musíte znát třídu PatternRecognizer
Musíte psát regulární výrazy v syntaxi Pythonu
Musíte nastavit konfigurační soubory YAML
Musíte ladit skóre spolehlivosti
Musíte testovat a ladit Python skripty

Compliance officer, který zná formát MRN, to sám nezvládne. Oprava skončí jako ticket pro inženýry. Čeká se 6–8 týdnů. Mezera zůstává otevřená.

Generování vzorů pomocí AI

Existuje rychlejší způsob. Popište vzor prostými slovy. Získejte funkční regulární výraz zpět.

Postup:

Otevřete nástroj pro tvorbu vlastních entit
Zadejte příklady: „Naše MRN vypadají takto: MRN:1234567, MRN:9876543, MRN:0001234”
AI vytvoří pravidlo: MRN:\d{7}
Otestujte na 10 vzorových záznamech
Všechna MRN nalezena? Uložte a nasaďte.

Pro síť se čtyřmi formáty MRN:

Memorial Hospital → MRN:\d{7}
St. Mary's → PT-\d{5}
University Hospital → UHN-[A-Z0-9]{10}
Klinika → C\d{5}

Vytvořte čtyři vlastní entity. Seskupte je do přednastavení. Spusťte na všech souborech. Čas: jedno odpoledne.

Viz vlastní detekce MRN v pipeline HIPAA bez kódu pro kompletní průvodce.

Validace pro Safe Harbor

HIPAA Safe Harbor říká, že subjekt musí mít „skutečnou znalost” toho, zda by data mohla identifikovat osobu. (45 CFR §164.514(b))

Validace prokazuje, že vaše vlastní pravidla pokrývají všech 18 typů identifikátorů.

Krok 1: Vytáhněte vzorky. Získejte 100 záznamů z každého pracoviště. Promíchejte časová období a oddělení.

Krok 2: Spusťte detekci. Zpracujte všech 400 dokumentů pomocí vlastních pravidel.

Krok 3: Ruční kontrola. Zkontrolujte 20 dokumentů ručně (5% vzorek). Hledejte chybějící MRN a falešné shody.

Krok 4: Upřesněte pravidla. Chybějí MRN? Rozšiřte vzor. Příliš mnoho falešných shod? Přidejte hranice slov.

Krok 5: Zapište to. Zaznamenejte pravidlo, velikost vzorku, výsledky a datum. Tento záznam je vaším dokladem Safe Harbor.

Viz vysvětlitelná redakce a auditní stopy HIPAA pro více informací o tom, co dokumentovat.

Úplné pokrytí Safe Harbor

Po opravení detekce MRN zkontrolujte všech 18 kategorií.

Kategorie	Standardní nástroje	Nutné vlastní nastavení?
1. Jména	Model NER	Ne
2. Geografická data	Detekce polohy	Ne pro stát; Ano pro kódy pracovišť
3. Data	Detekce data	Ne
4. Telefonní čísla	Detekce telefonu	Ne
5. Čísla faxu	Detekce telefonu	Ne
6. E-mailové adresy	Detekce e-mailu	Ne
7. Rodná čísla	Detekce rodného čísla	Ne
8. Čísla zdravotních záznamů	Není zabudováno	Ano — specifické pro pracoviště
9. Čísla členů zdravotního plánu	Částečně	Často ano — specifické pro plátce
10. Čísla účtů	Částečně	Často ano — formát fakturace
11. Čísla licencí	Částečně	Často ano — specifické pro stát
12. Identifikátory vozidel	Částečně	Vzácné v klinických dokumentech
13. Identifikátory zařízení	Částečně	Ano pokud jsou zařízení v záznamech
14. Webové adresy URL	Detekce URL	Ne
15. IP adresy	Detekce IP	Ne
16. Biometrické identifikátory	Textový kontext	Vzácné ve výpisných zprávách
17. Fotografie	Pouze obrázky	Mimo rozsah pro text
18. Ostatní jedinečné identifikátory	Není zabudováno	Ano — specifické pro pracoviště

U klinického textu nejčastěji vyžadují vlastní nastavení kategorie 8, 9, 10 a 18.

Kontext klinického dokumentu

Propouštěcí zprávy, klinické poznámky a operační zprávy jsou hlavní soubory sdílené pro výzkum. Obsahují:

MRN v záhlavích a zápatích
Čísla účtů v fakturačních sekcích
Data všech událostí — přijetí, výkon, laboratorní test, medikace
Jména lékařů a čísla DEA
Informace o odesílajícím lékaři
ID členů pojištění

Vlastní pravidla pro formáty specifické pro pracoviště se kombinují se zabudovanými pravidly pro standardní formáty. Tato kombinace poskytuje úplné pokrytí Safe Harbor.

Závěr

De-identifikace podle HIPAA bez vlastních pravidel není de-identifikace Safe Harbor. Formát MRN každé nemocnice je jedinečný. Standardní nástroje je přehlédnou. Mezera v souladu s předpisy je reálná a zůstává otevřená, dokud ji neuzavřete.

Generování vzorů pomocí AI zkrátí opravu z 6–8 týdnů inženýrské práce na jedno odpoledne práce na compliance. Popište formát. Otestujte ho na reálných záznamech. Nasaďte ho. Hotovo.

Zdroje

Související články

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor requires removing medical record numbers — but MRN formats are not standardized. Epic, Cerner, and Meditech all use different formats.

HIPAA Safe Harbor De-ID at Scale

HIPAA Safe Harbor requires removing 18 specific PHI identifier categories. Academic medical centers need de-identification at scale but existing tools.

ISO 27001 & HIPAA BAAs for Healthcare

HIPAA Business Associate Agreements require 'satisfactory assurances' of appropriate safeguards. ISO 27001 maps directly to HIPAA 164.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

We follow these rules

GDPR (EU 2016/679).
ISO/IEC 27001:2022.
NIS2 (EU 2022/2555).
HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our company HQ is in Saarbrücken, Germany. Our servers run in Hetzner's Falkenstein datacenter.

Hetzner holds ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

We never sell your information to third parties.
We never train models on what you upload.
We never keep your work after you delete it.
We never share keys with any outside firm.
We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.