Problém s narušením dat ve zdravotnictví

Aktualizováno pro rok 2026: 725 narušení zdravotnických dat v roce 2024 odhalilo 275 milionů záznamů (HHS OCR). Toto číslo překonává celkovou populaci USA.

Náklady jsou vysoké. Průměrná cena narušení dat ve zdravotnictví je 10,22 milionů USD. To jsou nejvyšší náklady v jakémkoli odvětví — patnáct let v řadě (IBM Cost of Data Breach 2025). Polovina všech narušení ve zdravotnictví začíná u dodavatele nebo obchodního partnera (HHS OCR 2024). Hrozba není jen interní.

Tato čísla změnila způsob, jakým vedení nemocnic jedná. Ve velkých zdravotnických systémech ředitel informační bezpečnosti neschválí cloudové nástroje pro práci s chráněnými zdravotními informacemi (PHI). Riziko je příliš vysoké.

To vytváří skutečný konflikt pro klinické týmy. Potřebují zbavit pacientská data z poznámek. Tato práce je nezbytná pro výzkum, zprávy o kvalitě a sady trénovacích dat. Potřebují nástroje, které dobře fungují ve velkém měřítku. Cloudové nástroje jsou zablokovány. A propast se zvětšuje.

Proč jsou cloudové nástroje pro PHI blokovány

Oddělení občanských práv HHS zintenzívnilo vymáhání předpisů. Aktualizace bezpečnostního pravidla HIPAA z roku 2024 byla prvním zásadním změnou od roku 2013. Přinesla nové jasné požadavky:

Šifrování při přenosu i v klidu pro všechny elektronické PHI
Smlouvy s obchodními partnery (BAA) s každým externím dodavatelem
Záznamy o analýze rizik pro každý výběr dodavatele
Plány reakce na incidenty

Když nemocnice hodnotí cloudový nástroj de-identifikace, musí bezpečnostní tým prokázat tři věci: za prvé, že dodavatel nemůže PHI vidět; za druhé, že BAA odpovídá přesnému případu použití; za třetí, že narušení dodavatele neodhalí záznamy pacientů.

Polovina narušení ve zdravotnictví již začíná u dodavatelů. Proto rizikové týmy cloudové nástroje pro PHI nemohou schválit — bez ohledu na to, jak silná jsou bezpečnostní tvrzení dodavatele.

I s podepsanou BAA je pohled ředitele informační bezpečnosti často stejný: BAA přiděluje odpovědnost po narušení. Nebrání mu. Nepotřebujeme více dodavatelů v řetězci. Náš přehled zabezpečení vysvětluje, jak lokální zpracování tento řetězec přeruší.

Problém s přesností

Blokování cloudu by bylo méně závažné, kdyby jednodušší nástroje práci zvládly. Výzkum ukazuje, že nemohou.

Studie z roku 2025 zjistila, že nástroje LLM pro obecné účely přehlíží více než polovinu klinických PHI ve volném textu poznámek (arXiv:2509.14464). HIPAA Safe Harbor vyžaduje odstranění 18 typů identifikátorů. Klinické poznámky skrývají tyto identifikátory v zkratkách, lokálních termínech a slovech z jiných jazyků.

Standardní nástroje přehlíží případy jako:

„Pac. J.D., datum nar. 12.4.67” — zkrácené jméno a formát data
„Dg.: HCC k/u, schůzka UCSF MC” — název nemocnice uvnitř klinické zkratky
„Viděn dr. Novákem v pohotovosti č. 3, pokoj 12B” — jméno lékaře s číslem pokoje
Formáty identifikačních čísel pacientů (7–8 číslic, lišící se dle pracoviště) smíchané s jinými čísly

Výzkumný soubor dat postavený na poznámkách s mírou přehlédnutí přes 50 % nesplňuje pravidla HIPAA. Vytváří problémy s IRB. Hrozí mu vymáhací opatření, pokud mezera vyjde najevo po publikaci článku. Naše stránka souladu s předpisy pokrývá standardy Safe Harbor i Expert Determination.

Mezera v dostupných nástrojích

Týmy klinické informatiky čelí skutečné mezeře. Každá možnost má závažné omezení.

Komerční cloudové služby fungují dobře. Vyžadují však odesílání chráněných zdravotních dat externímu dodavateli. Většina velkých zdravotnických systémů toto blokuje.

Open-source nástroje (jako Presidio a MIST) běží lokálně. Ale vyžadují náročnou konfiguraci a průběžnou údržbu. Bez dalšího přizpůsobení často nedosahují přesnosti vyžadované HIPAA. Prostá anglická vysvětlení klíčových pojmů najdete v glosáři.

Ruční de-identifikace metodou Expert Determination vyžaduje vyškoleného statistika, který musí prokázat, že riziko re-identifikace je velmi malé. Funguje pro malé soubory záznamů. Nefunguje při 50 000+ záznamech.

Hybridní metody kombinují automatizované nástroje s ručním přezkumem označených položek. To pomáhá s objemem. Neopravuje to však problém s přesností v automatizované části.

Potřeba je jasná. Klinické týmy potřebují přesnost na úrovni cloudu — NLP, regulární výrazy a transformerové modely. A to vše musí běžet na místním hardwaru, bez externích volání, bez přístupu dodavatele k pacientským datům.

Regulační reakce v roce 2024

725 narušení v roce 2024 vyvolalo silnou regulační reakci.

Oddělení občanských práv HHS vydalo v tom roce více než 120 vymáhacích opatření HIPAA. Pokuty dosáhly rekordních výší. Navrhovaná aktualizace bezpečnostního pravidla HIPAA z března 2025 přináší nové požadavky:

Roční audity šifrování
Vícefaktorové přihlašování pro všechny systémy zpracovávající elektronické PHI
Povinnosti zveřejňování informací o kybernetické bezpečnosti
Přísnější pravidla dohledu nad dodavateli

Pro povinné subjekty náklady na compliance neustále rostou. Zvyšují se pokuty i objem práce potřebné k prokázání souladu prostřednictvím dokumentace. Naše FAQ odpovídá na časté otázky k těmto pravidlům.

HIPAA stanovuje jasné standardy pro de-identifikaci. Safe Harbor odstraňuje všech 18 typů identifikátorů. Expert Determination vyžaduje prokázání nízkého rizika re-identifikace. Nástroj, který přehlíží více než polovinu PHI, nesplňuje ani jeden standard.

Co lokální de-identifikace vyžaduje

Lokální nástroj musí odpovídat kvalitě detekce cloudových služeb. To vyžaduje čtyři vrstvy.

Vrstva 1 — Regulární výrazy s klinickými vzory. Strukturované identifikátory — identifikační čísla pacientů (MRN), rodná čísla (SSN), identifikační čísla poskytovatelů (NPI), čísla DEA — jsou vhodné pro regulární výrazy. Dobrá klinická knihovna pokrývá formáty MRN používané ve zdravotnických systémech, které se výrazně liší od pracoviště k pracovišti.

Vrstva 2 — Rozpoznávání pojmenovaných entit. Klinické poznámky skrývají PHI v prostém textu. Jména lékařů se objevují v narativních větách. Jména pacientů se vyskytují v mnoha formátech. Lokality se objevují v anamnéze. NLP modely trénované na klinickém textu dokážou všechny tato najít.

Vrstva 3 — Více jazyků. Americké zdravotnictví slouží pacientům hovořícím mnoha jazyky. PHI se může objevit v rodném jazyce pacienta uvnitř přeloženého záznamu. Španělština, čínština, arabština, vietnamština a tagalog se všechny vyskytují v amerických pacientských záznamech. Detekce musí pokrývat všechny z nich.

Vrstva 4 — Kontextové skórování. Sedmimístné číslo je v jedné poznámce identifikačním číslem pacienta a v jiné dávkou léku. Kontextové skórování snižuje falešně pozitivní výsledky, což znamená méně označených položek k přezkumu a čistší výsledky auditu.

Dávkové zpracování ve velkém měřítku

Výzkumné datové sady jsou rozsáhlé. Pětiletý projekt na jednom akademickém lékařském centru může obsahovat 500 000 volně psaných poznámek. Pro zpracování takového objemu nástroj potřebuje:

Paralelní zpracování více dokumentů najednou
Podporu formátů DOCX, PDF, prostý text a exporty z EHR
Sledování průběhu a protokoly chyb pro neúspěšné položky
Auditní stopu zobrazující, co bylo zpracováno a kdy
Výstup ve formátu ZIP pro snadný přenos výzkumným partnerům

Ruční přezkum se v tomto rozsahu nedá škálovat. Cloudové nástroje jsou zablokovány. Jedinou cestou vpřed je přesné lokální zpracování se silnou podporou dávkového zpracování.

Pracovní postup v praxi

Regionální nemocnice chce de-identifikovaný dataset EHR pro společnou studii s univerzitním partnerem. Ředitel informační bezpečnosti po číslech narušení z roku 2024 zablokoval cloudové zpracování pacientských dat.

Zde je pracovní postup s lokálně orientovaným nástrojem:

Export. Systém EHR exportuje 50 000 klinických poznámek jako dokumenty DOCX do zabezpečené lokální složky.
Zpracování. Desktopová aplikace zpracuje 10 dávek po 5 000 dokumentech přes noc na lokálních pracovních stanicích.
Přezkum. Tým klinické informatiky zkontroluje vzorek oproti pravidlům HIPAA Safe Harbor.
Dokumentace. Protokol zpracování zaznamenává každou zpracovanou položku, použitou metodu detekce a časové razítko. To je auditní stopa pro IRB.
Přenos. De-identifikovaný výstup je zabalen a odeslán univerzitě prostřednictvím zabezpečeného kanálu.

Ředitel informační bezpečnosti schválí, protože žádná pacientská data neopustí síť nemocnice. IRB schválí, protože metoda splňuje dokumentační pravidla Safe Harbor. Univerzita získá data, která odpovídají jejich dohodě o použití dat. Další příklady najdete v případových studiích.

Desktopová aplikace anonym.legal poskytuje de-identifikaci PHI v kvalitě cloudu. Používá tříúrovňovou detekci: Presidio NLP, regulární výrazy a transformery XLM-RoBERTa. Instaluje se lokálně a po instalaci nevyžaduje internet. Jsou podporovány všech 18 identifikátorů HIPAA Safe Harbor. Dávkové zpracování zvládá 1–5 000 dokumentů najednou.

Zdroje

HHS OCR Statistiky narušení zdravotnických dat 2024 — OVĚŘENO-EXTERNĚ
IBM Cost of a Data Breach Report 2025 — OVĚŘENO-EXTERNĚ
arXiv:2509.14464 — Průzkum de-identifikace pomocí LLM (2025) — OVĚŘENO-EXTERNĚ
DeepStrike: Statistiky narušení zdravotnických dat 2025 — OVĚŘENO-EXTERNĚ
IntuitionLabs: Open-Source nástroje pro de-identifikaci PHI — OVĚŘENO-EXTERNĚ

Související články

Zdravotnictví

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

Když CISO říkají ne cloudovému zpracování PHI

Problém s narušením dat ve zdravotnictví

Proč jsou cloudové nástroje pro PHI blokovány

Problém s přesností

Mezera v dostupných nástrojích

Regulační reakce v roce 2024

Co lokální de-identifikace vyžaduje

Dávkové zpracování ve velkém měřítku

Pracovní postup v praxi

Zdroje

Související články

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Připraveni chránit svá data?

Když CISO říkají ne cloudovému zpracování PHI

Problém s narušením dat ve zdravotnictví

Proč jsou cloudové nástroje pro PHI blokovány

Problém s přesností

Mezera v dostupných nástrojích

Regulační reakce v roce 2024

Co lokální de-identifikace vyžaduje

Dávkové zpracování ve velkém měřítku

Pracovní postup v praxi

Zdroje

Související články

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow