By · Last updated 2026-03-07

Powrót do blogaSłużba zdrowia

Gdy CISO mówi nie przetwarzaniu PHI w chmurze

725 naruszeń danych medycznych w 2024 roku dotknęło 275 milionów rekordów. Przy średnim koszcie naruszenia wynoszącym 10,22 mln USD – najwyższym w jakiejkolwiek branży – dyrektorzy ds. bezpieczeństwa w ochronie zdrowia blokują narzędzia chmurowe dla danych PHI.

March 7, 20269 min czytania
HIPAA compliancehealthcare data breachPHI de-identificationlocal processing

Problem naruszeń danych w ochronie zdrowia

Aktualizacja 2026: 725 naruszeń danych medycznych w 2024 roku ujawniło 275 milionów rekordów (HHS OCR). Ta liczba przekracza całkowitą populację Stanów Zjednoczonych.

Koszty są ogromne. Średni koszt naruszenia w ochronie zdrowia wynosi 10,22 miliona USD. To najwyższy wynik spośród wszystkich branż – przez piętnaście kolejnych lat z rzędu (IBM Cost of Data Breach 2025). Połowa wszystkich naruszeń w ochronie zdrowia zaczyna się od dostawcy lub partnera biznesowego (HHS OCR 2024). Zagrożenie nie pochodzi wyłącznie z wewnątrz.

Te dane zmieniły sposób działania kierownictwa szpitali. W dużych systemach ochrony zdrowia CISO nie zatwierdzają narzędzi chmurowych do pracy z PHI. Ryzyko jest zbyt wysokie.

Stwarza to realny konflikt dla zespołów klinicznych. Muszą usuwać dane pacjentów z notatek. Ta praca jest niezbędna do badań, raportów jakościowych i zbiorów danych treningowych. Potrzebują narzędzi sprawdzających się na dużą skalę. Narzędzia chmurowe są zablokowane. A luka tylko się powiększa.

Dlaczego narzędzia chmurowe dla PHI są blokowane

HHS Civil Rights wzmogło egzekwowanie przepisów. Aktualizacja reguły bezpieczeństwa HIPAA z 2024 roku była pierwszą istotną zmianą od 2013 roku. Wprowadziła nowe, wyraźne wymagania:

  • Szyfrowanie danych elektronicznych PHI w tranzycie i w spoczynku
  • Umowy z partnerami biznesowymi (BAA) z każdym zewnętrznym dostawcą
  • Dokumentacja analizy ryzyka dla każdego wybranego dostawcy
  • Plany reagowania na incydenty

Kiedy szpital ocenia narzędzie do de-identyfikacji w chmurze, zespół ds. bezpieczeństwa musi wykazać trzy rzeczy. Po pierwsze: dostawca nie ma dostępu do PHI. Po drugie: BAA odpowiada dokładnemu przypadkowi użycia. Po trzecie: naruszenie u dostawcy nie ujawni dokumentacji pacjentów.

Połowa naruszeń w ochronie zdrowia już teraz zaczyna się od dostawców. Dlatego zespoły ds. ryzyka często nie mogą zatwierdzić chmurowych narzędzi PHI. Dotyczy to niezależnie od tego, jak mocne są twierdzenia dostawcy o bezpieczeństwie.

Nawet przy podpisanej BAA, pogląd CISO jest często taki sam: BAA przypisuje winę po naruszeniu. Nie zapobiega mu. Nie potrzebujemy kolejnych dostawców w łańcuchu. Nasz przegląd bezpieczeństwa wyjaśnia, jak przetwarzanie lokalne eliminuje to ryzyko.

Problem dokładności

Blokada chmury miałaby mniejsze znaczenie, gdyby prostsze narzędzia potrafiły wykonać tę pracę. Badania pokazują, że nie potrafią.

Badanie z 2025 roku wykazało, że ogólne narzędzia LLM pomijają ponad połowę klinicznych PHI w notatkach swobodnych (arXiv:2509.14464). HIPAA Safe Harbor wymaga usunięcia 18 rodzajów identyfikatorów. Notatki kliniczne ukrywają te identyfikatory w skrótach, lokalnych terminach i słowach z innych języków.

Standardowe narzędzia pomijają takie przypadki jak:

  • „Pac. J.K., data ur. 4/12/67” – skrócone imię i format daty
  • „Rozp.: HCC kontrolna, wizyta w UCSF MC” – nazwa szpitala wewnątrz klinicznego skrótu
  • „Widziany przez dr. Kowalskiego w SOR #3, sala 12B” – imię lekarza z numerem sali
  • Formaty MRN (7-8 cyfr, różne w zależności od placówki) wymieszane z innymi liczbami

Zbiór badawczy zbudowany na notatkach z ponad 50% pominięć narusza zasady HIPAA. Stwarza problemy z IRB. Grozi działaniem egzekucyjnym, jeśli luka wyjdzie na jaw po opublikowaniu artykułu. Nasza strona zgodności omawia zarówno standardy Safe Harbor, jak i Expert Determination.

Luka narzędziowa

Zespoły informatyki klinicznej stoją przed realną luką. Każda opcja ma poważne ograniczenia.

Komercyjne usługi chmurowe działają dobrze. Ale wymagają wysyłania chronionych danych zdrowotnych do zewnętrznego dostawcy. Większość dużych szpitali to blokuje.

Narzędzia open-source (takie jak Presidio i MIST) działają lokalnie. Ale wymagają rozbudowanej konfiguracji i bieżącej obsługi. Często nie spełniają wymagań dokładności HIPAA bez dodatkowych dostosowań. Nasz słownik zawiera definicje kluczowych terminów w przystępnym języku.

Ręczna de-identyfikacja metodą Expert Determination wymaga wykwalifikowanego statystyka. Statystyk musi wykazać, że ryzyko re-identyfikacji jest bardzo małe. Sprawdza się dla małych zbiorów rekordów. Nie działa przy ponad 50 000 rekordach.

Metody hybrydowe łączą zautomatyzowane narzędzia z ręcznym przeglądem oznaczonych elementów. Pomaga to przy dużej skali. Ale nie rozwiązuje problemu dokładności części zautomatyzowanej.

Potrzeba jest wyraźna. Zespoły kliniczne potrzebują dokładności na poziomie chmury. Oznacza to NLP, wyrażenia regularne i modele transformer. I to wszystko musi działać na lokalnym sprzęcie. Bez zewnętrznych wywołań. Bez dostępu dostawcy do danych pacjentów.

Odpowiedź regulacyjna w 2024 roku

725 naruszeń w 2024 roku wywołało silną odpowiedź regulacyjną.

HHS Civil Rights wydało ponad 120 działań egzekucyjnych HIPAA w tym roku. Kary osiągnęły rekordowe poziomy. Proponowana aktualizacja reguły bezpieczeństwa HIPAA z marca 2025 roku dodaje nowe wymagania:

  • Coroczne audyty szyfrowania
  • Uwierzytelnianie wieloskładnikowe dla wszystkich systemów obsługujących elektroniczne PHI
  • Obowiązki ujawniania informacji o cyberbezpieczeństwie
  • Surowsze zasady nadzoru nad dostawcami

Dla podmiotów objętych przepisami koszty zgodności stale rosną. Rosną też kary. Podobnie jak nakład pracy potrzebny do udowodnienia zgodności przez dokumentację. Nasz FAQ odpowiada na często zadawane pytania dotyczące tych zasad.

HIPAA ustanawia jasne standardy de-identyfikacji. Safe Harbor usuwa wszystkie 18 typów identyfikatorów. Expert Determination wymaga dowodu niskiego ryzyka re-identyfikacji. Narzędzie pomijające ponad połowę PHI nie spełnia żadnego z tych standardów.

Czego potrzebuje lokalna de-identyfikacja

Lokalne narzędzie musi dorównywać jakością detekcji usługom chmurowym. Wymaga to czterech warstw.

Warstwa 1 – Wyrażenia regularne z wzorcami klinicznymi. Ustrukturyzowane identyfikatory – MRN, SSN, NPI, numery DEA – dobrze pasują do wyrażeń regularnych. Dobra biblioteka kliniczna obejmuje formaty MRN używane w różnych systemach ochrony zdrowia. Różnią się one znacznie między placówkami.

Warstwa 2 – Rozpoznawanie nazwanych encji. Notatki kliniczne ukrywają PHI w zwykłym tekście. Imiona i nazwiska lekarzy pojawiają się w zdaniach narracyjnych. Dane pacjentów występują w wielu formatach. Miejscowości pojawiają się w historii chorób. Modele NLP trenowane na tekstach klinicznych potrafią je wszystkie wykryć.

Warstwa 3 – Wiele języków. Ochrona zdrowia w USA obsługuje pacjentów mówiących wieloma językami. PHI może pojawić się w języku ojczystym pacjenta wewnątrz przetłumaczonej notatki. Hiszpański, chiński, arabski, wietnamski i tagalog – wszystkie te języki pojawiają się w dokumentacji pacjentów w USA. Detekcja musi obejmować je wszystkie.

Warstwa 4 – Ocena kontekstowa. Siedmiocyfrowa liczba to MRN w jednej notatce, a dawka leku w innej. Ocena kontekstowa ogranicza fałszywe alarmy. Oznacza to mniej flag do przeglądu i czystsze wyniki audytu.

Przetwarzanie wsadowe na dużą skalę

Zbiory badawcze są duże. Pięcioletni projekt w jednym akademickim centrum medycznym może zawierać 500 000 notatek swobodnych. Aby obsłużyć taką skalę, narzędzie musi:

  • Przetwarzać równolegle wiele dokumentów jednocześnie
  • Obsługiwać pliki DOCX, PDF, zwykły tekst i eksporty z EHR
  • Śledzić postęp i rejestrować błędy dla nieudanych elementów
  • Prowadzić dziennik audytu pokazujący, co zostało przetworzone i kiedy
  • Generować dane wyjściowe w formacie ZIP dla łatwego przesyłania do partnerów badawczych

Ręczny przegląd nie skaluje się na tym poziomie. Narzędzia chmurowe są zablokowane. Jedyna droga naprzód to dokładne przetwarzanie lokalne z solidną obsługą wsadową.

Rzeczywisty przepływ pracy

Regionalny szpital chce zdidentyfikowany zbiór danych EHR do wspólnego badania z partnerem akademickim. CISO zablokował przetwarzanie w chmurze danych pacjentów po wynikach naruszeń z 2024 roku.

Oto przepływ pracy z narzędziem lokalnym:

  1. Eksport. System EHR eksportuje 50 000 notatek klinicznych jako dokumenty DOCX do bezpiecznego lokalnego folderu.
  2. Przetwarzanie. Aplikacja desktopowa uruchamia 10 partii po 5 000 dokumentów nocą na lokalnych stacjach roboczych.
  3. Przegląd. Zespół informatyki klinicznej sprawdza próbkę zgodnie z regułami HIPAA Safe Harbor.
  4. Dokumentacja. Dziennik przetwarzania rejestruje każdy przetworzony element, zastosowaną metodę detekcji i znacznik czasu. To jest ścieżka audytu IRB.
  5. Przesyłanie. Zdidentyfikowane dane wyjściowe są pakowane i wysyłane do uczelni bezpiecznym kanałem.

CISO zatwierdza, ponieważ żadne dane pacjentów nie opuszczają sieci szpitala. IRB zatwierdza, ponieważ metoda spełnia wymagania dokumentacyjne Safe Harbor. Uczelnia otrzymuje dane pasujące do umowy o korzystaniu z danych. Nasze studia przypadków zawierają więcej rzeczywistych przykładów.


Aplikacja desktopowa anonym.legal zapewnia de-identyfikację PHI na poziomie jakości chmury. Stosuje trójwarstwową detekcję: Presidio NLP, wyrażenia regularne i transformery XLM-RoBERTa. Instaluje się lokalnie i po konfiguracji nie wymaga dostępu do internetu. Obsługuje wszystkie 18 identyfikatorów HIPAA Safe Harbor. Przetwarzanie wsadowe obsługuje od 1 do 5 000 dokumentów jednocześnie.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.