By · Last updated 2026-06-04

Bumalik sa BlogHealthcare

Pagtuklas ng HIPAA MRN Nang Walang Pag-aaral ng Regex

Ang bawat ospital ay may iba't ibang format ng MRN. Gumagamit ang Memorial ng MRN:XXXXXXX, gumagamit ang St. Mary's ng PT-YYYYY, gumagamit ang University Hospital ng UHN-XXXXXXXXXX.

June 4, 20266 min basahin
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

Pagtuklas ng HIPAA MRN Nang Walang Pag-aaral ng Regex

Ang format ng MRN ng iyong ospital ay wala sa anumang karaniwang tool sa PII. Narito kung paano ito idaragdag sa loob ng limang minuto. Hindi kailangan ng code.

Nakaharap ang mga healthcare IT team sa isang problema sa HIPAA na wala sa ibang sektor. Ang ID na pinaka-kailangan nilang hanapin - ang Medical Record Number - ay itinakda ng kanilang sariling ospital. Walang pambansang pamantayan na umiiral.

Bawat proyekto sa HIPAA de-ID ay nangangailangan ng custom na setup. Kung wala ito, ang mga MRN ay dumadaan sa mga "de-identified" na file nang hindi natutuklas.

Ang Multi-Facility na Problema sa MRN

Ang mga network ng ospital na itinayo sa pamamagitan ng mga merger ay may mga legacy na sistema ng EHR. Bawat sistema ay may sariling format ng MRN:

  • Memorial Hospital (Epic): MRN:XXXXXXX - 7-digit na numero na may prefix
  • St. Mary's (Cerner): PT-YYYYY - 5-digit na may patient prefix
  • University Hospital (Meditech): UHN-XXXXXXXXXX - 10-character na halo
  • Clinic (standalone EMR): C\d{5} - titik C kasama ang 5 na digit

Kinakailangan ng HIPAA Safe Harbor na alisin ang lahat ng 18 uri ng ID. Ang Kategorya 8 ay ang mga medical record number. Ang isang tool na hindi alam ang iyong format ay palalabasin ang mga ito. Mukhang malinis ang file. Hindi ito.

Napansin ng komunidad ng ServiceNow healthcare ang eksaktong isyung ito. Nakukuha ng mga karaniwang tool ang mga SSN at numero ng telepono. Palagi nilang napalampas ang mga facility na MRN.

Ang Hadlang ng Regex

Ang pagdaragdag ng mga custom na panuntunan sa Microsoft Presidio - ang open-source na base para sa maraming tool sa HIPAA - ay nangangailangan ng tunay na kasanayan:

  • Kailangan mong malaman ang klase ng PatternRecognizer
  • Kailangan mong sumulat ng regex sa Python syntax
  • Kailangan mong mag-setup ng mga YAML config file
  • Kailangan mong i-tune ang mga confidence score
  • Kailangan mong subukan at mag-debug ng mga script sa Python

Ang isang compliance officer na nakakaalam ng format ng MRN ay hindi magagawa ito nang mag-isa. Ang solusyon ay nagtatapos bilang isang engineering ticket. Naghihintay ito sa queue ng 6-8 na linggo. Nananatiling bukas ang gap.

Pagbuo ng Pattern na Tinutulungan ng AI

May mas mabilis na paraan. Ilarawan ang pattern sa simpleng salita. Makakuha ng gumaganang regex pabalik.

Mga hakbang:

  1. Buksan ang custom entity builder
  2. Magbigay ng mga halimbawa: "Ang aming mga MRN ay ganito ang hitsura: MRN:1234567, MRN:9876543, MRN:0001234"
  3. Nagtatayo ang AI ng panuntunan: MRN:\d{7}
  4. Subukan sa 10 sample na rekord
  5. Lahat ng MRN ay natagpuan? I-save at i-deploy.

Para sa isang network na may apat na format ng MRN:

  • Memorial Hospital - MRN:\d{7}
  • St. Mary's - PT-\d{5}
  • University Hospital - UHN-[A-Z0-9]{10}
  • Clinic - C\d{5}

Gumawa ng apat na custom na entity. I-grupo ang mga ito sa isang preset. Patakbuhin sa lahat ng file. Oras: isang hapon.

Tingnan ang custom na pagtuklas ng MRN sa mga pipeline ng HIPAA nang walang code para sa kumpletong gabay.

Validation para sa Safe Harbor

Sinasabi ng HIPAA Safe Harbor na ang covered entity ay dapat walang "aktwal na kaalaman" na maaaring makilala ng data ang isang tao. (45 CFR §164.514(b))

Pinapatunayan ng validation na sinasaklaw ng iyong mga custom na panuntunan ang lahat ng 18 uri ng ID.

Hakbang 1: Kunin ang mga sample. Kumuha ng 100 rekord mula sa bawat site. Paghaluin ang mga panahon at departamento.

Hakbang 2: Patakbuhin ang pagtuklas. I-proseso ang lahat ng 400 na dokumento gamit ang iyong mga custom na panuntunan.

Hakbang 3: Pagsusuri ng tao. Suriin nang kamay ang 20 na dokumento (5% na sample). Maghanap ng mga napalampas na MRN at mga maling hit.

Hakbang 4: Pinuhin ang mga panuntunan. Napalampas ang mga MRN? Palawakin ang pattern. Masyadong maraming maling hit? Magdagdag ng mga hangganan ng salita.

Hakbang 5: Isulat ito. I-log ang panuntunan, ang laki ng sample, ang mga resulta, at ang petsa. Ang log na ito ay ang iyong rekord ng Safe Harbor.

Tingnan ang maipaliwanag na redaction at mga audit trail ng HIPAA para sa karagdagang impormasyon tungkol sa kung ano ang dapat idokumento.

Buong Saklaw ng Safe Harbor

Pagkatapos ayusin ang pagtuklas ng MRN, suriin ang lahat ng 18 kategorya.

KategoryaMga Karaniwang ToolKailangan ang Custom?
1. Mga pangalanNER modelHindi
2. Geographic na dataPagtuklas ng lokasyonHindi para sa estado; Oo para sa mga site code
3. Mga petsaPagtuklas ng petsaHindi
4. Mga numero ng teleponoPagtuklas ng teleponoHindi
5. Mga numero ng faxPagtuklas ng teleponoHindi
6. Mga email addressPagtuklas ng emailHindi
7. Mga SSNPagtuklas ng SSNHindi
8. Mga medical record numberHindi built inOo - partikular sa site
9. Mga numero ng miyembro ng health planBahagyangMadalas oo - partikular sa payer
10. Mga numero ng accountBahagyangMadalas oo - format ng billing
11. Mga numero ng lisensyaBahagyangMadalas oo - partikular sa estado
12. Mga vehicle IDBahagyangBihira sa mga clinical na dokumento
13. Mga device IDBahagyangOo kung ang mga device ay nasa mga rekord
14. Mga web URLPagtuklas ng URLHindi
15. Mga IP addressPagtuklas ng IPHindi
16. Mga biometric IDKonteksto ng tekstoBihira sa mga discharge note
17. Mga larawanLarawan lamangHindi saklaw para sa teksto
18. Iba pang natatanging IDHindi built inOo - partikular sa site

Para sa clinical na teksto, ang mga kategorya 8, 9, 10, at 18 ay kadalasang nangangailangan ng custom na setup.

Konteksto ng Clinical na Dokumento

Ang mga discharge note, clinical note, at op report ay ang mga pangunahing file na ibinahagi para sa pananaliksik. Naglalaman ang mga ito ng:

  • Mga MRN sa mga header at footer
  • Mga numero ng account sa mga seksyon ng billing
  • Mga petsa para sa lahat ng kaganapan - admit, pamamaraan, lab, gamot
  • Mga pangalan ng physician at mga numero ng DEA
  • Impormasyon ng referring doctor
  • Mga ID ng miyembro ng insurance

Ang mga custom na panuntunan para sa mga format na partikular sa site ay nagkakasamang may mga built-in na panuntunan para sa mga karaniwang format. Ang pares na iyon ay nagbibigay sa iyo ng buong saklaw ng Safe Harbor.

Konklusyon

Ang HIPAA de-ID nang walang mga custom na panuntunan ay hindi Safe Harbor de-ID. Ang bawat format ng MRN ng ospital ay natatangi. Napalampas ng mga karaniwang tool ang mga ito. Totoo ang compliance gap at nananatili itong bukas hanggang sa isara mo ito.

Pinipigilan ng pagbuo ng pattern gamit ang AI ang solusyon mula 6-8 linggo ng engineering hanggang isang hapon ng compliance work. Ilarawan ang format. Subukan ito sa mga tunay na rekord. I-deploy ito. Tapos na.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.