anonym.legal

By · Last updated 2026-06-03

Назад към блогаЗдравеопазване

HIPAA MRN засичане без докторска степен по regex

Форматът на MRN на всяка болница е различен. Memorial използва MRN:XXXXXXX, St. Mary's използва PT-YYYYY, University Hospital използва UHN-XXXXXXXXXX.

June 3, 20266 мин. четене
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

HIPAA MRN засичане без докторска степен по regex

Форматът на MRN на вашата болница не е в нито един стандартен ПЛИ инструмент. Ето как да го добавите за пет минути. Не е необходим код.

Екипите по здравна информатика са изправени пред HIPAA проблем, който другите сектори нямат. Идентификаторът, който най-много трябва да намерят - Медицинският регистрационен номер - е зададен от тяхната собствена болница. Не съществува национален стандарт.

Всеки HIPAA проект за деидентификация изисква персонализирана настройка. Без нея, MRN-ите проникват през "деидентифицирани" файлове, незасечени.

Проблемът с MRN при множество заведения

Болничните мрежи, изградени чрез сливания, имат наследени ЕЗД системи. Всяка система има свой собствен MRN формат:

  • Memorial Hospital (Epic): MRN:XXXXXXX - 7-цифрено число с префикс
  • St. Mary's (Cerner): PT-YYYYY - 5-цифрено с пациентски префикс
  • University Hospital (Meditech): UHN-XXXXXXXXXX - 10-знакова комбинация
  • Клиника (самостоятелна ЕМЗ): C\d{5} - буква C плюс 5 цифри

HIPAA Safe Harbor изисква премахване на всички 18 типа идентификатори. Категория 8 са медицинските регистрационни номера. Инструмент, който не знае вашия формат, ще ги пропусне. Файлът изглежда чист. Но не е.

Общността на ServiceNow за здравеопазване е отбелязала точно този проблем. Стандартните инструменти засичат ЕГН и телефонни номера. Пропускат MRN-ите на заведенията всеки път.

Бариерата на regex

Добавянето на персонализирани правила към Microsoft Presidio - отворения код, на базата на много HIPAA инструменти - изисква реални умения:

  • Трябва да познавате класа PatternRecognizer
  • Трябва да пишете regex в Python синтаксис
  • Трябва да настроите YAML конфигурационни файлове
  • Трябва да настроите оценки на доверие
  • Трябва да тествате и отстранявате грешки в Python скриптове

Служителят по съответствието, който знае формата на MRN, не може да направи това сам. Решението завършва като инженерна задача. Тя стои в опашката 6-8 седмици. Пропастта остава отворена.

Генериране на шаблони с AI

Има по-бърз начин. Опишете шаблона с обикновени думи. Получете работещ regex в замяна.

Стъпки:

  1. Отворете конструктора за персонализирани обекти
  2. Дайте примери: "Нашите MRN-и изглеждат така: MRN:1234567, MRN:9876543, MRN:0001234"
  3. AI изгражда правилото: MRN:\d{7}
  4. Тествайте върху 10 примерни записа
  5. Всички MRN-и открити? Запазете и разгърнете.

За мрежа с четири MRN формата:

  • Memorial Hospital - MRN:\d{7}
  • St. Mary's - PT-\d{5}
  • University Hospital - UHN-[A-Z0-9]{10}
  • Клиника - C\d{5}

Направете четири персонализирани обекта. Групирайте ги в настройка. Стартирайте върху всички файлове. Време: един следобед.

Вижте персонализирано засичане на MRN в HIPAA конвейери без код за пълно ръководство.

Валидиране за Safe Harbor

HIPAA Safe Harbor гласи, че покритото заведение не трябва да има "действително знание", че данните могат да идентифицират някого. (45 CFR §164.514(b))

Валидирането показва, че вашите персонализирани правила покриват всички 18 типа идентификатори.

Стъпка 1: Вземете примери. Вземете 100 записа от всеки обект. Смесете времеви периоди и отдели.

Стъпка 2: Стартирайте засичане. Обработете всичките 400 документа с вашите персонализирани правила.

Стъпка 3: Проверка от човек. Прегледайте 20 документа ръчно (5% извадка). Потърсете пропуснати MRN-и и фалшиви засичания.

Стъпка 4: Прецизирайте правилата. Пропуснати MRN-и? Разширете шаблона. Твърде много фалшиви засичания? Добавете граници на думи.

Стъпка 5: Запишете го. Регистрирайте правилото, размера на извадката, резултатите и датата. Този дневник е вашият запис за Safe Harbor.

Вижте обяснимо заличаване и одитни пътеки за HIPAA за повече информация за документирането.

Пълно покритие на Safe Harbor

След поправяне на засичането на MRN, проверете всичките 18 категории.

КатегорияСтандартни инструментиНужна персонализация?
1. ИменаNER моделНе
2. Географски данниЗасичане на местоположениеНе за щат; Да за кодове на обекти
3. ДатиЗасичане на датиНе
4. Телефонни номераЗасичане на телефониНе
5. Факс номераЗасичане на телефониНе
6. Имейл адресиЗасичане на имейлиНе
7. ЕГНЗасичане на ЕГННе
8. Медицински регистрационни номераНе вграденоДа - специфично за обекта
9. Номера на членове в здравен планЧастичноЧесто да - специфично за платеца
10. Номера на сметкиЧастичноЧесто да - формат за фактуриране
11. Номера на лицензиЧастичноЧесто да - специфично за щата
12. Идентификатори на превозни средстваЧастичноРядко в клинични документи
13. Идентификатори на устройстваЧастичноДа, ако устройствата са в записите
14. Уеб URL-иЗасичане на URLНе
15. IP адресиЗасичане на IPНе
16. Биометрични идентификаториТекстов контекстРядко в изписни бележки
17. СнимкиСамо изображенияИзвън обхвата за текст
18. Други уникални идентификаториНе вграденоДа - специфично за обекта

За клинични текстове, категории 8, 9, 10 и 18 най-често изискват персонализирана настройка.

Контекст на клинични документи

Изписни бележки, клинични бележки и оперативни доклади са основните файлове, споделяни за изследвания. Те съдържат:

  • MRN-и в горни и долни колонтитули
  • Номера на сметки в секции за фактуриране
  • Дати за всички събития - постъпване, процедура, лаборатория, лекарства
  • Имена на лекари и DEA номера
  • Информация за насочващия лекар
  • Идентификатори на членове на застраховката

Персонализираните правила за специфични за обекта формати се съчетават с вградени правила за стандартни формати. Тази двойка ви дава пълно покритие на Safe Harbor.

Заключение

HIPAA деидентификацията без персонализирани правила не е Safe Harbor деидентификация. Форматът на MRN на всяка болница е уникален. Стандартните инструменти ги пропускат. Пропастта в съответствието е реална и остава отворена, докато не я затворите.

Генерирането на AI шаблони намалява поправката от 6-8 седмици инженерна работа до един следобед на работа по съответствието. Опишете формата. Тествайте го върху реални записи. Разгърнете го. Готово.

Извори

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.