Detekce MRN podle HIPAA bez doktorátu z regulárních výrazů
Formát MRN vaší nemocnice není v žádném standardním nástroji pro PII. Zde je návod, jak ho přidat za pět minut. Bez psaní kódu.
IT týmy ve zdravotnictví čelí problému s HIPAA, který jiná odvětví nemají. Identifikátor, který nejvíce potřebují najít — číslo zdravotního záznamu (MRN) — stanovuje jejich vlastní nemocnice. Žádný národní standard neexistuje.
Každý projekt de-identifikace podle HIPAA vyžaduje vlastní nastavení. Bez něj MRN proklouznou „de-identifikovanými” soubory neodhalena.
Problém MRN ve vícezařízení
Nemocniční sítě vybudované prostřednictvím fúzí mají starší systémy EHR. Každý systém má vlastní formát MRN:
- Memorial Hospital (Epic): MRN:XXXXXXX — 7místné číslo s prefixem
- St. Mary's (Cerner): PT-YYYYY — 5místné s prefixem pacienta
- University Hospital (Meditech): UHN-XXXXXXXXXX — 10znakový mix
- Klinika (samostatný EMR): C\d{5} — písmeno C plus 5 číslic
HIPAA Safe Harbor vyžaduje odstranění všech 18 typů identifikátorů. Kategorie 8 jsou čísla zdravotních záznamů. Nástroj, který nezná váš formát, je přehlédne. Soubor vypadá čistě. Není.
Komunita ServiceNow pro zdravotnictví tento přesný problém zaznamenala. Standardní nástroje zachytí rodná čísla a telefonní čísla. MRN zařízení přehlédnou pokaždé.
Bariéra regulárních výrazů
Přidání vlastních pravidel do Microsoft Presidio — open-source základu pro mnoho nástrojů HIPAA — vyžaduje skutečné dovednosti:
- Musíte znát třídu PatternRecognizer
- Musíte psát regulární výrazy v syntaxi Pythonu
- Musíte nastavit konfigurační soubory YAML
- Musíte ladit skóre spolehlivosti
- Musíte testovat a ladit Python skripty
Compliance officer, který zná formát MRN, to sám nezvládne. Oprava skončí jako ticket pro inženýry. Čeká se 6–8 týdnů. Mezera zůstává otevřená.
Generování vzorů pomocí AI
Existuje rychlejší způsob. Popište vzor prostými slovy. Získejte funkční regulární výraz zpět.
Postup:
- Otevřete nástroj pro tvorbu vlastních entit
- Zadejte příklady: „Naše MRN vypadají takto: MRN:1234567, MRN:9876543, MRN:0001234”
- AI vytvoří pravidlo: MRN:\d{7}
- Otestujte na 10 vzorových záznamech
- Všechna MRN nalezena? Uložte a nasaďte.
Pro síť se čtyřmi formáty MRN:
- Memorial Hospital → MRN:\d{7}
- St. Mary's → PT-\d{5}
- University Hospital → UHN-[A-Z0-9]{10}
- Klinika → C\d{5}
Vytvořte čtyři vlastní entity. Seskupte je do přednastavení. Spusťte na všech souborech. Čas: jedno odpoledne.
Viz vlastní detekce MRN v pipeline HIPAA bez kódu pro kompletní průvodce.
Validace pro Safe Harbor
HIPAA Safe Harbor říká, že subjekt musí mít „skutečnou znalost” toho, zda by data mohla identifikovat osobu. (45 CFR §164.514(b))
Validace prokazuje, že vaše vlastní pravidla pokrývají všech 18 typů identifikátorů.
Krok 1: Vytáhněte vzorky. Získejte 100 záznamů z každého pracoviště. Promíchejte časová období a oddělení.
Krok 2: Spusťte detekci. Zpracujte všech 400 dokumentů pomocí vlastních pravidel.
Krok 3: Ruční kontrola. Zkontrolujte 20 dokumentů ručně (5% vzorek). Hledejte chybějící MRN a falešné shody.
Krok 4: Upřesněte pravidla. Chybějí MRN? Rozšiřte vzor. Příliš mnoho falešných shod? Přidejte hranice slov.
Krok 5: Zapište to. Zaznamenejte pravidlo, velikost vzorku, výsledky a datum. Tento záznam je vaším dokladem Safe Harbor.
Viz vysvětlitelná redakce a auditní stopy HIPAA pro více informací o tom, co dokumentovat.
Úplné pokrytí Safe Harbor
Po opravení detekce MRN zkontrolujte všech 18 kategorií.
| Kategorie | Standardní nástroje | Nutné vlastní nastavení? |
|---|---|---|
| 1. Jména | Model NER | Ne |
| 2. Geografická data | Detekce polohy | Ne pro stát; Ano pro kódy pracovišť |
| 3. Data | Detekce data | Ne |
| 4. Telefonní čísla | Detekce telefonu | Ne |
| 5. Čísla faxu | Detekce telefonu | Ne |
| 6. E-mailové adresy | Detekce e-mailu | Ne |
| 7. Rodná čísla | Detekce rodného čísla | Ne |
| 8. Čísla zdravotních záznamů | Není zabudováno | Ano — specifické pro pracoviště |
| 9. Čísla členů zdravotního plánu | Částečně | Často ano — specifické pro plátce |
| 10. Čísla účtů | Částečně | Často ano — formát fakturace |
| 11. Čísla licencí | Částečně | Často ano — specifické pro stát |
| 12. Identifikátory vozidel | Částečně | Vzácné v klinických dokumentech |
| 13. Identifikátory zařízení | Částečně | Ano pokud jsou zařízení v záznamech |
| 14. Webové adresy URL | Detekce URL | Ne |
| 15. IP adresy | Detekce IP | Ne |
| 16. Biometrické identifikátory | Textový kontext | Vzácné ve výpisných zprávách |
| 17. Fotografie | Pouze obrázky | Mimo rozsah pro text |
| 18. Ostatní jedinečné identifikátory | Není zabudováno | Ano — specifické pro pracoviště |
U klinického textu nejčastěji vyžadují vlastní nastavení kategorie 8, 9, 10 a 18.
Kontext klinického dokumentu
Propouštěcí zprávy, klinické poznámky a operační zprávy jsou hlavní soubory sdílené pro výzkum. Obsahují:
- MRN v záhlavích a zápatích
- Čísla účtů v fakturačních sekcích
- Data všech událostí — přijetí, výkon, laboratorní test, medikace
- Jména lékařů a čísla DEA
- Informace o odesílajícím lékaři
- ID členů pojištění
Vlastní pravidla pro formáty specifické pro pracoviště se kombinují se zabudovanými pravidly pro standardní formáty. Tato kombinace poskytuje úplné pokrytí Safe Harbor.
Závěr
De-identifikace podle HIPAA bez vlastních pravidel není de-identifikace Safe Harbor. Formát MRN každé nemocnice je jedinečný. Standardní nástroje je přehlédnou. Mezera v souladu s předpisy je reálná a zůstává otevřená, dokud ji neuzavřete.
Generování vzorů pomocí AI zkrátí opravu z 6–8 týdnů inženýrské práce na jedno odpoledne práce na compliance. Popište formát. Otestujte ho na reálných záznamech. Nasaďte ho. Hotovo.