By · Last updated 2026-03-07

Zpět na blogZdravotnictví

Když CISO říkají ne cloudovému zpracování PHI

725 narušení zdravotnických dat v roce 2024 zasáhlo 275 milionů záznamů. S průměrnými náklady na narušení 10,22 milionů USD — nejvyššími v jakémkoli odvětví — zdravotničtí ředitelé informační bezpečnosti odmítají cloudové nástroje pro PHI.

March 7, 20269 min čtení
HIPAA compliancehealthcare data breachPHI de-identificationlocal processing

Problém s narušením dat ve zdravotnictví

Aktualizováno pro rok 2026: 725 narušení zdravotnických dat v roce 2024 odhalilo 275 milionů záznamů (HHS OCR). Toto číslo překonává celkovou populaci USA.

Náklady jsou vysoké. Průměrná cena narušení dat ve zdravotnictví je 10,22 milionů USD. To jsou nejvyšší náklady v jakémkoli odvětví — patnáct let v řadě (IBM Cost of Data Breach 2025). Polovina všech narušení ve zdravotnictví začíná u dodavatele nebo obchodního partnera (HHS OCR 2024). Hrozba není jen interní.

Tato čísla změnila způsob, jakým vedení nemocnic jedná. Ve velkých zdravotnických systémech ředitel informační bezpečnosti neschválí cloudové nástroje pro práci s chráněnými zdravotními informacemi (PHI). Riziko je příliš vysoké.

To vytváří skutečný konflikt pro klinické týmy. Potřebují zbavit pacientská data z poznámek. Tato práce je nezbytná pro výzkum, zprávy o kvalitě a sady trénovacích dat. Potřebují nástroje, které dobře fungují ve velkém měřítku. Cloudové nástroje jsou zablokovány. A propast se zvětšuje.

Proč jsou cloudové nástroje pro PHI blokovány

Oddělení občanských práv HHS zintenzívnilo vymáhání předpisů. Aktualizace bezpečnostního pravidla HIPAA z roku 2024 byla prvním zásadním změnou od roku 2013. Přinesla nové jasné požadavky:

  • Šifrování při přenosu i v klidu pro všechny elektronické PHI
  • Smlouvy s obchodními partnery (BAA) s každým externím dodavatelem
  • Záznamy o analýze rizik pro každý výběr dodavatele
  • Plány reakce na incidenty

Když nemocnice hodnotí cloudový nástroj de-identifikace, musí bezpečnostní tým prokázat tři věci: za prvé, že dodavatel nemůže PHI vidět; za druhé, že BAA odpovídá přesnému případu použití; za třetí, že narušení dodavatele neodhalí záznamy pacientů.

Polovina narušení ve zdravotnictví již začíná u dodavatelů. Proto rizikové týmy cloudové nástroje pro PHI nemohou schválit — bez ohledu na to, jak silná jsou bezpečnostní tvrzení dodavatele.

I s podepsanou BAA je pohled ředitele informační bezpečnosti často stejný: BAA přiděluje odpovědnost po narušení. Nebrání mu. Nepotřebujeme více dodavatelů v řetězci. Náš přehled zabezpečení vysvětluje, jak lokální zpracování tento řetězec přeruší.

Problém s přesností

Blokování cloudu by bylo méně závažné, kdyby jednodušší nástroje práci zvládly. Výzkum ukazuje, že nemohou.

Studie z roku 2025 zjistila, že nástroje LLM pro obecné účely přehlíží více než polovinu klinických PHI ve volném textu poznámek (arXiv:2509.14464). HIPAA Safe Harbor vyžaduje odstranění 18 typů identifikátorů. Klinické poznámky skrývají tyto identifikátory v zkratkách, lokálních termínech a slovech z jiných jazyků.

Standardní nástroje přehlíží případy jako:

  • „Pac. J.D., datum nar. 12.4.67” — zkrácené jméno a formát data
  • „Dg.: HCC k/u, schůzka UCSF MC” — název nemocnice uvnitř klinické zkratky
  • „Viděn dr. Novákem v pohotovosti č. 3, pokoj 12B” — jméno lékaře s číslem pokoje
  • Formáty identifikačních čísel pacientů (7–8 číslic, lišící se dle pracoviště) smíchané s jinými čísly

Výzkumný soubor dat postavený na poznámkách s mírou přehlédnutí přes 50 % nesplňuje pravidla HIPAA. Vytváří problémy s IRB. Hrozí mu vymáhací opatření, pokud mezera vyjde najevo po publikaci článku. Naše stránka souladu s předpisy pokrývá standardy Safe Harbor i Expert Determination.

Mezera v dostupných nástrojích

Týmy klinické informatiky čelí skutečné mezeře. Každá možnost má závažné omezení.

Komerční cloudové služby fungují dobře. Vyžadují však odesílání chráněných zdravotních dat externímu dodavateli. Většina velkých zdravotnických systémů toto blokuje.

Open-source nástroje (jako Presidio a MIST) běží lokálně. Ale vyžadují náročnou konfiguraci a průběžnou údržbu. Bez dalšího přizpůsobení často nedosahují přesnosti vyžadované HIPAA. Prostá anglická vysvětlení klíčových pojmů najdete v glosáři.

Ruční de-identifikace metodou Expert Determination vyžaduje vyškoleného statistika, který musí prokázat, že riziko re-identifikace je velmi malé. Funguje pro malé soubory záznamů. Nefunguje při 50 000+ záznamech.

Hybridní metody kombinují automatizované nástroje s ručním přezkumem označených položek. To pomáhá s objemem. Neopravuje to však problém s přesností v automatizované části.

Potřeba je jasná. Klinické týmy potřebují přesnost na úrovni cloudu — NLP, regulární výrazy a transformerové modely. A to vše musí běžet na místním hardwaru, bez externích volání, bez přístupu dodavatele k pacientským datům.

Regulační reakce v roce 2024

725 narušení v roce 2024 vyvolalo silnou regulační reakci.

Oddělení občanských práv HHS vydalo v tom roce více než 120 vymáhacích opatření HIPAA. Pokuty dosáhly rekordních výší. Navrhovaná aktualizace bezpečnostního pravidla HIPAA z března 2025 přináší nové požadavky:

  • Roční audity šifrování
  • Vícefaktorové přihlašování pro všechny systémy zpracovávající elektronické PHI
  • Povinnosti zveřejňování informací o kybernetické bezpečnosti
  • Přísnější pravidla dohledu nad dodavateli

Pro povinné subjekty náklady na compliance neustále rostou. Zvyšují se pokuty i objem práce potřebné k prokázání souladu prostřednictvím dokumentace. Naše FAQ odpovídá na časté otázky k těmto pravidlům.

HIPAA stanovuje jasné standardy pro de-identifikaci. Safe Harbor odstraňuje všech 18 typů identifikátorů. Expert Determination vyžaduje prokázání nízkého rizika re-identifikace. Nástroj, který přehlíží více než polovinu PHI, nesplňuje ani jeden standard.

Co lokální de-identifikace vyžaduje

Lokální nástroj musí odpovídat kvalitě detekce cloudových služeb. To vyžaduje čtyři vrstvy.

Vrstva 1 — Regulární výrazy s klinickými vzory. Strukturované identifikátory — identifikační čísla pacientů (MRN), rodná čísla (SSN), identifikační čísla poskytovatelů (NPI), čísla DEA — jsou vhodné pro regulární výrazy. Dobrá klinická knihovna pokrývá formáty MRN používané ve zdravotnických systémech, které se výrazně liší od pracoviště k pracovišti.

Vrstva 2 — Rozpoznávání pojmenovaných entit. Klinické poznámky skrývají PHI v prostém textu. Jména lékařů se objevují v narativních větách. Jména pacientů se vyskytují v mnoha formátech. Lokality se objevují v anamnéze. NLP modely trénované na klinickém textu dokážou všechny tato najít.

Vrstva 3 — Více jazyků. Americké zdravotnictví slouží pacientům hovořícím mnoha jazyky. PHI se může objevit v rodném jazyce pacienta uvnitř přeloženého záznamu. Španělština, čínština, arabština, vietnamština a tagalog se všechny vyskytují v amerických pacientských záznamech. Detekce musí pokrývat všechny z nich.

Vrstva 4 — Kontextové skórování. Sedmimístné číslo je v jedné poznámce identifikačním číslem pacienta a v jiné dávkou léku. Kontextové skórování snižuje falešně pozitivní výsledky, což znamená méně označených položek k přezkumu a čistší výsledky auditu.

Dávkové zpracování ve velkém měřítku

Výzkumné datové sady jsou rozsáhlé. Pětiletý projekt na jednom akademickém lékařském centru může obsahovat 500 000 volně psaných poznámek. Pro zpracování takového objemu nástroj potřebuje:

  • Paralelní zpracování více dokumentů najednou
  • Podporu formátů DOCX, PDF, prostý text a exporty z EHR
  • Sledování průběhu a protokoly chyb pro neúspěšné položky
  • Auditní stopu zobrazující, co bylo zpracováno a kdy
  • Výstup ve formátu ZIP pro snadný přenos výzkumným partnerům

Ruční přezkum se v tomto rozsahu nedá škálovat. Cloudové nástroje jsou zablokovány. Jedinou cestou vpřed je přesné lokální zpracování se silnou podporou dávkového zpracování.

Pracovní postup v praxi

Regionální nemocnice chce de-identifikovaný dataset EHR pro společnou studii s univerzitním partnerem. Ředitel informační bezpečnosti po číslech narušení z roku 2024 zablokoval cloudové zpracování pacientských dat.

Zde je pracovní postup s lokálně orientovaným nástrojem:

  1. Export. Systém EHR exportuje 50 000 klinických poznámek jako dokumenty DOCX do zabezpečené lokální složky.
  2. Zpracování. Desktopová aplikace zpracuje 10 dávek po 5 000 dokumentech přes noc na lokálních pracovních stanicích.
  3. Přezkum. Tým klinické informatiky zkontroluje vzorek oproti pravidlům HIPAA Safe Harbor.
  4. Dokumentace. Protokol zpracování zaznamenává každou zpracovanou položku, použitou metodu detekce a časové razítko. To je auditní stopa pro IRB.
  5. Přenos. De-identifikovaný výstup je zabalen a odeslán univerzitě prostřednictvím zabezpečeného kanálu.

Ředitel informační bezpečnosti schválí, protože žádná pacientská data neopustí síť nemocnice. IRB schválí, protože metoda splňuje dokumentační pravidla Safe Harbor. Univerzita získá data, která odpovídají jejich dohodě o použití dat. Další příklady najdete v případových studiích.


Desktopová aplikace anonym.legal poskytuje de-identifikaci PHI v kvalitě cloudu. Používá tříúrovňovou detekci: Presidio NLP, regulární výrazy a transformery XLM-RoBERTa. Instaluje se lokálně a po instalaci nevyžaduje internet. Jsou podporovány všech 18 identifikátorů HIPAA Safe Harbor. Dávkové zpracování zvládá 1–5 000 dokumentů najednou.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.