Проблема порушень даних в охороні здоров'я
Оновлено у 2026 році: 725 порушень даних в охороні здоров'я у 2024 році торкнулися 275 мільйонів записів (HHS OCR). Ця цифра перевищує чисельність населення всіх США.
Витрати значні. Порушення в охороні здоров'я в середньому обходяться в $10,22 мільйона. Це найвищі витрати в будь-якій галузі — п'ятнадцять років поспіль (IBM Cost of Data Breach 2025). Половина всіх порушень в охороні здоров'я починається з постачальника або ділового партнера (HHS OCR 2024). Загроза не є лише внутрішньою.
Ці цифри змінили підхід керівників лікарень. У великих системах охорони здоров'я директор з інформаційної безпеки не схвалює хмарні інструменти для роботи з ПМД. Ризик занадто великий.
Це створює реальний конфлікт для клінічних команд. Їм потрібно видаляти дані пацієнтів із нотаток. Ця робота потрібна для досліджень, звітів про якість і навчальних наборів даних. Їм потрібні інструменти, які добре працюють у великому масштабі. Хмарні інструменти заблоковані. І розрив зростає.
Чому хмарні інструменти для обробки ПМД блокуються
Відомство з цивільних прав HHS посилило виконання. Оновлення Правила безпеки HIPAA 2024 року стало першою суттєвою зміною з 2013 року. Воно додало чіткі нові вимоги:
- Шифрування під час передачі та зберігання для всіх електронних ПМД
- Угоди ділового партнера (BAA) з кожним стороннім постачальником
- Записи аналізу ризиків для кожного вибору постачальника
- Плани реагування на інциденти
Коли лікарня перевіряє хмарний інструмент деідентифікації, команда безпеки повинна довести три речі. Перше: постачальник не може бачити ПМД. Друге: BAA відповідає точному випадку використання. Третє: порушення постачальника не призведе до розкриття записів пацієнтів.
Половина порушень в охороні здоров'я вже починається з постачальників. Тому команди управління ризиками часто не можуть схвалити хмарні інструменти обробки ПМД. Це справедливо незалежно від того, наскільки сильними є заяви постачальника щодо безпеки.
Навіть з підписаним BAA, позиція директора з інформаційної безпеки часто така сама: BAA призначає відповідальність після порушення. Він не запобігає йому. Нам не потрібно більше постачальників у ланцюжку. Наш огляд безпеки пояснює, як локальна обробка виключає цей ланцюжок.
Проблема точності
Блокування хмари мало б менше значення, якби простіші інструменти могли впоратися з роботою. Дослідження показують, що це не так.
Дослідження 2025 року виявило, що загальнопризначені інструменти LLM пропускають більше половини клінічних ПМД у нотатках довільного тексту (arXiv:2509.14464). Метод Safe Harbor HIPAA вимагає видалення 18 типів ідентифікаторів. Клінічні нотатки приховують ці ідентифікатори в скороченнях, місцевих термінах і словах з інших мов.
Стандартні інструменти пропускають такі випадки:
- «Пац. Д.В., ДН 04.12.67» — скорочене ім'я та формат дати
- «Дз: ГКК ф/с, прийом в UCSF MC» — назва лікарні у клінічному скороченні
- «Оглянутий д-ром Смітом у ВП №3, кімната 12B» — ім'я лікаря з номером кімнати
- Формати МЗН (7–8 цифр, що варіюються залежно від установи), змішані з іншими числами
Набір дослідницьких даних, побудований на нотатках з рівнем пропуску понад 50%, порушує правила HIPAA. Він створює проблеми для IRB. Він ризикує заходами виконання, якщо прогалина виявиться після публікації статті. Наша сторінка відповідності охоплює як Safe Harbor, так і стандарти експертного визначення.
Прогалина в інструментах
Команди клінічної інформатики стикаються з реальною прогалиною. Кожен варіант має серйозне обмеження.
Комерційні хмарні сервіси добре працюють. Але вони вимагають надсилання захищених медичних даних зовнішньому постачальнику. Більшість великих систем охорони здоров'я блокують це.
Інструменти з відкритим кодом (такі як Presidio і MIST) працюють локально. Але вони потребують значного налаштування та постійного обслуговування. Вони часто не досягають точності HIPAA без додаткової індивідуальної роботи. Дивіться наш глосарій для простих визначень ключових термінів.
Ручна деідентифікація за методом Expert Determination потребує навченого статистика. Статистик повинен довести, що ризик повторної ідентифікації дуже малий. Це працює для невеликих наборів записів. Для 50 000+ записів це не масштабується.
Гібридні методи поєднують автоматизовані інструменти з ручним переглядом позначених елементів. Це допомагає з обсягом. Але це не вирішує проблему точності в автоматизованій частині.
Потреба очевидна. Клінічним командам потрібна точність рівня хмари. Це означає NLP, регулярні вирази та трансформерні моделі. І все це має працювати на локальному обладнанні. Без зовнішніх викликів. Без доступу постачальника до даних пацієнтів.
Регуляторна реакція 2024 року
725 порушень у 2024 році викликали сильну регуляторну реакцію.
Відомство з цивільних прав HHS виписало понад 120 заходів виконання HIPAA того року. Штрафи досягли рекордного рівня. Запропоноване оновлення Правила безпеки HIPAA від березня 2025 року додає нові вимоги:
- Щорічні аудити шифрування
- Багатофакторна автентифікація для всіх систем, що обробляють електронні ПМД
- Обов'язки розкриття інформації про кібербезпеку
- Суворіші правила нагляду за постачальниками
Для охоплених організацій витрати на відповідність продовжують зростати. Штрафи збільшуються. Так само і робота з доведення відповідності через записи. Наш FAQ охоплює типові питання щодо цих правил.
HIPAA встановлює чіткі стандарти деідентифікації. Safe Harbor видаляє всі 18 типів ідентифікаторів. Expert Determination вимагає доказу низького ризику повторної ідентифікації. Інструмент, що пропускає більше половини ПМД, не відповідає жодному зі стандартів.
Що потрібне для локальної деідентифікації
Локальний інструмент повинен відповідати якості виявлення хмарних сервісів. Для цього потрібні чотири шари.
Шар 1 — Регулярні вирази з клінічними шаблонами. Структуровані ідентифікатори — МЗН, ССН, NPI, номери DEA — добре підходять для регулярних виразів. Хороша клінічна бібліотека охоплює формати МЗН, що використовуються в різних системах охорони здоров'я. Вони сильно варіюються від установи до установи.
Шар 2 — Розпізнавання іменованих сутностей. Клінічні нотатки приховують ПМД у звичайному тексті. Імена лікарів з'являються в описових реченнях. Імена пацієнтів зустрічаються в різних форматах. Місця розташування фігурують в медичній анамнезі. Моделі NLP, навчені на клінічному тексті, можуть знайти їх усі.
Шар 3 — Кілька мов. Охорона здоров'я в США обслуговує пацієнтів, що розмовляють багатьма мовами. ПМД можуть з'являтися рідною мовою пацієнта всередині перекладеної нотатки. Іспанська, китайська, арабська, в'єтнамська та тагальська — всі зустрічаються в записах пацієнтів США. Виявлення повинне охоплювати їх усі.
Шар 4 — Контекстна оцінка. Семизначне число є МЗН в одній нотатці й дозою препарату в іншій. Контекстна оцінка зменшує хибнопозитивні результати. Це означає менше позначок для перевірки та чистіші результати аудиту.
Пакетна обробка у великому масштабі
Дослідницькі набори даних великі. П'ятирічний проект в одному академічному медичному центрі може містити 500 000 нотаток довільного тексту. Щоб впоратися з таким обсягом, інструменту потрібні:
- Паралельні запуски по багатьох документах одночасно
- Підтримка DOCX, PDF, звичайного тексту та експортів EHR
- Відстеження прогресу та журнали помилок для невдалих елементів
- Журнал аудиту, що показує, що було оброблено і коли
- Вивід у ZIP для зручної передачі дослідницьким партнерам
Ручний перегляд не масштабується на цьому рівні. Хмарні інструменти заблоковані. Єдиний шлях вперед — точна локальна обробка з потужною пакетною підтримкою.
Реальний робочий процес
Регіональна лікарня хоче деідентифікований набір даних EHR для спільного дослідження з університетським партнером. Директор з інформаційної безпеки заблокував хмарну обробку даних пацієнтів після цифр порушень 2024 року.
Ось робочий процес із місцевим інструментом:
- Експорт. Система EHR експортує 50 000 клінічних нотаток як документи DOCX до захищеної локальної папки.
- Обробка. Настільний додаток запускає 10 пакетів по 5 000 документів за ніч на локальних робочих станціях.
- Перевірка. Команда клінічної інформатики перевіряє вибірку відповідно до правил HIPAA Safe Harbor.
- Документування. Журнал обробки фіксує кожен оброблений елемент, використаний метод виявлення та часову мітку. Це журнал аудиту IRB.
- Передача. Деідентифікований вивід упаковується та надсилається університету через захищений канал.
Директор з інформаційної безпеки схвалює, оскільки жодні дані пацієнтів не виходять за межі мережі лікарні. IRB схвалює, оскільки метод відповідає документаційним правилам Safe Harbor. Університет отримує дані, що відповідають їхній угоді про використання даних. Дивіться наші тематичні дослідження для більше реальних прикладів.
Настільний додаток anonym.legal забезпечує деідентифікацію ПМД якості хмарного рівня. Він використовує трирівневе виявлення: Presidio NLP, регулярні вирази та трансформери XLM-RoBERTa. Встановлюється локально і не потребує інтернету після налаштування. Підтримуються всі 18 ідентифікаторів HIPAA Safe Harbor. Пакетні запуски обробляють від 1 до 5 000 документів за раз.
Джерела
- HHS OCR Healthcare Breach Statistics 2024 — VERIFIED-EXTERNAL
- IBM Cost of a Data Breach Report 2025 — VERIFIED-EXTERNAL
- arXiv:2509.14464 — LLM De-Identification Survey (2025) — VERIFIED-EXTERNAL
- DeepStrike: Healthcare Data Breaches 2025 Statistics — VERIFIED-EXTERNAL
- IntuitionLabs: Open-Source PHI De-Identification Tools — VERIFIED-EXTERNAL