Проблема 50% пропущених даних

Огляд 2025 року (arXiv:2509.14464) тестував LLM-інструменти на клінічних записах. Результати виявилися поганими. Ці інструменти пропустили понад 50% клінічних PHI у багатомовних документах. Причина проста. Великі мовні моделі створені для генерації тексту. Вони не призначені для завдань виявлення з високою повнотою, яких вимагає HIPAA.

Метод Safe Harbor HIPAA містить 18 типів захищених ідентифікаторів. Імена, дати, номери телефонів, SSN, MRN, ідентифікатори планів медичного страхування, ідентифікатори пристроїв та IP-адреси. Кожен потребує власної логіки виявлення.

Клінічні нотатки ускладнюють завдання. Розглянемо приклад: «Пацієнт Іван Д., ДН 12.04.67, МРН 1234567, госпіталізований 15.03.24, Д-р Шевченко призначив ЕКГ». Одне речення. П'ять захищених ідентифікаторів. Більшість використовує скорочення. Модель, орієнтована на клінічний зміст, часто не справляється із завданням виявлення.

Що пропускають LLM і чому

LLM-інструменти систематично дають збої на клінічних записах у певних ситуаціях.

Ідентифікатори-скорочення: клінічні нотатки використовують стенографію. ДН, МРН і Пац. — поширені форми. Модель, налаштована на клінічний зміст, може не позначити «Пац. Іван Д.» як ім'я. Видобування конфіденційних даних потребує іншої мети.

Дати залежно від контексту: не всі дати несуть однаковий ризик. «Вік 67» — м'який маркер. «ДН 12.04.67» — прямий захищений ідентифікатор. «15.03.24» як дата госпіталізації також захищена. Одного збігу за шаблоном недостатньо.

Не-американські формати: Cyberhaven (4 кв. 2025) виявив, що 34,8% всіх запитів до ChatGPT містять конфіденційні дані, включаючи багатомовні PII. У охороні здоров'я це означає ідентифікатори записів не-американського формату, регіональні формати дат і місцеві типи ідентифікаторів здоров'я. Інструменти, навчені на американських даних, систематично їх пропускають.

Власні ідентифікатори лікарень: лікарні використовують власні формати МРН, ідентифікатори персоналу та коди об'єктів. Вони відсутні в стандартних навчальних даних NER. Інструмент без підтримки власних сутностей їх не знайде.

Ризик дослідницьких наборів даних

Лікарня, що формує дослідницький набір даних з 500 000 нотаток, стикається з реальною проблемою відповідності. HIPAA вимагає «дуже малого ризику» для деідентифікованих даних. Інструмент, що пропускає половину всіх захищених ідентифікаторів, не може відповідати цій вимозі.

Дослідницькі архіви — це не чисті дані. Нотатки охоплюють різні відділення, часові проміжки, а іноді й мови. Інструмент, що добре працює з даними виставлення рахунків, може дати збій на описових нотатках. Конфіденційні дані у вільному тексті не мають мітки поля.

Дозвіл IRB висуває додаткові вимоги. Установи повинні показати використаний метод, видалені типи ідентифікаторів і проведені перевірки. Інструмент, що пропускає половину всіх записів, не може їх виконати.

Дивіться наш огляд відповідності і практики безпеки щодо підтримки HIPAA в anonym.legal.

Триступеневе виправлення

Огляд 2025 року виявив чіткий шаблон. Інструменти з найнижчим відсотком пропусків використовували три рівні виявлення.

Рівень перший — регекс: знаходить структуровані ідентифікатори. SSN, MRN, номери телефонів, ідентифікатори медичного страхування. Надійний для фіксованих форматів.

Рівень другий — NER: використовує трансформерні моделі. Знаходить імена, дати та конфіденційні дані в описових текстах. Працює там, де регекс не може.

Рівень третій — власні сутності: обробляє специфічні для об'єкта форми. Власні шаблони МРН, ідентифікатори персоналу, коди об'єктів. Жодна стандартна модель їх не охоплює.

Чисті ML-інструменти деградують на скороченнях і не-англійських текстах. Чисті регекс-інструменти пропускають конфіденційні дані без мітки поля. Жодного окремо недостатньо.

Лише триступенева конструкція досягла відсотка пропусків менше 5% в огляді. Це планка для відповідності HIPAA Safe Harbor.

Дивіться наш посібник із деідентифікації HIPAA Safe Harbor для досліджень для наступних кроків.

Джерела

Схожі статті

Охорона здоров'я

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

Почати безкоштовну пробну версію Переглянути функції

Великі мовні моделі пропускають 50% клінічних PHI

Проблема 50% пропущених даних

Що пропускають LLM і чому

Ризик дослідницьких наборів даних

Триступеневе виправлення

Джерела

Схожі статті

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Готові захистити свої дані?

Великі мовні моделі пропускають 50% клінічних PHI

Проблема 50% пропущених даних

Що пропускають LLM і чому

Ризик дослідницьких наборів даних

Триступеневе виправлення

Джерела

Схожі статті

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow