Проблема 50% пропущених даних
Огляд 2025 року (arXiv:2509.14464) тестував LLM-інструменти на клінічних записах. Результати виявилися поганими. Ці інструменти пропустили понад 50% клінічних PHI у багатомовних документах. Причина проста. Великі мовні моделі створені для генерації тексту. Вони не призначені для завдань виявлення з високою повнотою, яких вимагає HIPAA.
Метод Safe Harbor HIPAA містить 18 типів захищених ідентифікаторів. Імена, дати, номери телефонів, SSN, MRN, ідентифікатори планів медичного страхування, ідентифікатори пристроїв та IP-адреси. Кожен потребує власної логіки виявлення.
Клінічні нотатки ускладнюють завдання. Розглянемо приклад: «Пацієнт Іван Д., ДН 12.04.67, МРН 1234567, госпіталізований 15.03.24, Д-р Шевченко призначив ЕКГ». Одне речення. П'ять захищених ідентифікаторів. Більшість використовує скорочення. Модель, орієнтована на клінічний зміст, часто не справляється із завданням виявлення.
Що пропускають LLM і чому
LLM-інструменти систематично дають збої на клінічних записах у певних ситуаціях.
Ідентифікатори-скорочення: клінічні нотатки використовують стенографію. ДН, МРН і Пац. — поширені форми. Модель, налаштована на клінічний зміст, може не позначити «Пац. Іван Д.» як ім'я. Видобування конфіденційних даних потребує іншої мети.
Дати залежно від контексту: не всі дати несуть однаковий ризик. «Вік 67» — м'який маркер. «ДН 12.04.67» — прямий захищений ідентифікатор. «15.03.24» як дата госпіталізації також захищена. Одного збігу за шаблоном недостатньо.
Не-американські формати: Cyberhaven (4 кв. 2025) виявив, що 34,8% всіх запитів до ChatGPT містять конфіденційні дані, включаючи багатомовні PII. У охороні здоров'я це означає ідентифікатори записів не-американського формату, регіональні формати дат і місцеві типи ідентифікаторів здоров'я. Інструменти, навчені на американських даних, систематично їх пропускають.
Власні ідентифікатори лікарень: лікарні використовують власні формати МРН, ідентифікатори персоналу та коди об'єктів. Вони відсутні в стандартних навчальних даних NER. Інструмент без підтримки власних сутностей їх не знайде.
Ризик дослідницьких наборів даних
Лікарня, що формує дослідницький набір даних з 500 000 нотаток, стикається з реальною проблемою відповідності. HIPAA вимагає «дуже малого ризику» для деідентифікованих даних. Інструмент, що пропускає половину всіх захищених ідентифікаторів, не може відповідати цій вимозі.
Дослідницькі архіви — це не чисті дані. Нотатки охоплюють різні відділення, часові проміжки, а іноді й мови. Інструмент, що добре працює з даними виставлення рахунків, може дати збій на описових нотатках. Конфіденційні дані у вільному тексті не мають мітки поля.
Дозвіл IRB висуває додаткові вимоги. Установи повинні показати використаний метод, видалені типи ідентифікаторів і проведені перевірки. Інструмент, що пропускає половину всіх записів, не може їх виконати.
Дивіться наш огляд відповідності і практики безпеки щодо підтримки HIPAA в anonym.legal.
Триступеневе виправлення
Огляд 2025 року виявив чіткий шаблон. Інструменти з найнижчим відсотком пропусків використовували три рівні виявлення.
Рівень перший — регекс: знаходить структуровані ідентифікатори. SSN, MRN, номери телефонів, ідентифікатори медичного страхування. Надійний для фіксованих форматів.
Рівень другий — NER: використовує трансформерні моделі. Знаходить імена, дати та конфіденційні дані в описових текстах. Працює там, де регекс не може.
Рівень третій — власні сутності: обробляє специфічні для об'єкта форми. Власні шаблони МРН, ідентифікатори персоналу, коди об'єктів. Жодна стандартна модель їх не охоплює.
Чисті ML-інструменти деградують на скороченнях і не-англійських текстах. Чисті регекс-інструменти пропускають конфіденційні дані без мітки поля. Жодного окремо недостатньо.
Лише триступенева конструкція досягла відсотка пропусків менше 5% в огляді. Це планка для відповідності HIPAA Safe Harbor.
Дивіться наш посібник із деідентифікації HIPAA Safe Harbor для досліджень для наступних кроків.