Проблемът с 50% пропуск
Проучване от 2025 г. на базирани на LLM инструменти за деидентификация (arXiv:2509.14464) установи, че инструментите за LLM с общо предназначение пропускат повече от 50% от клиничните PHI в многоезични документи. Тази фигура отразява фундаментално архитектурно несъответствие: LLM са проектирани за разбиране и генериране на език, а не за структурирана задача за идентификация с висока степен на запомняне, която HIPAA деидентификацията изисква.
Методът Safe Harbor на Правилото за поверителност на HIPAA изисква премахване на 18 конкретни категории идентификатори: имена, географски данни, дати, телефонни номера, номера на факс, имейл адреси, SSN, номера на медицински досиета, номера на бенефициенти на здравни планове, номера на сметки, номера на сертификати/лицензи, VIN, идентификатори на устройства, уеб URL адреси, IP адреси, биометрични идентификатори, снимки на цялото лице и всякакви друг уникален идентификационен номер или код. Всяка от тези категории има структурирани формати, които изискват специфична логика за откриване.
Клиничните бележки са мястото, където се концентрира трудността. Помислете за типичен фрагмент от клинична бележка: "Pt. John D., DOB 4/12/67, MRN 1234567, представен в ED на 03/15/24 с болка в гърдите. Преди Hx: HTN, DM. Д-р Смит поръча ЕКГ." Това единствено изречение съдържа име, дата на раждане, MRN, дата на прием и лекуващ лекар — пет HIPAA идентификатора, някои в съкратена форма, вградени в клинична стенография.
Какво пропускат LLM и защо
LLM с общо предназначение се провалят при клинични PHI в предвидими модели.
Съкратени идентификатори: Клиничните бележки използват стандартни съкращения (DOB за дата на раждане, MRN за номер на медицински картон, Pt. за пациент), които контекстно-независимият NER може да не разпознае като PII маркери. LLM, който чете бележката по-горе за общо разбиране, разбира клиничното значение; LLM, натоварен с извличането на PHI, може да пропусне "Pt. John D." като частичен модел на име.
Зависещи от контекста дати: Датите в клиничните бележки имат специфично HIPAA значение. „Възраст 67“ е частичен деидентификатор, който трябва да се отбележи. „DOB 4/12/67“ е PHI. „03/15/24“ като дата за прием е PHI. Те изискват извличане на дата в зависимост от контекста, а не само съпоставяне на модел на дата.
Формати на регионални идентификатори: Проучване на Cyberhaven (Q4 2025) установи, че 34,8% от всички ChatGPT входове съдържат чувствителни данни, включително многоезични PII. В контекста на здравеопазването това включва формати на медицински досиета извън САЩ, международни конвенции за дати и специфични за държавата формати на здравни идентификатори, които фокусираните в САЩ системи пропускат.
Персонализирани институционални идентификатори: Здравните системи използват собствени MRN формати, идентификатори на служители и кодове на съоръжения, които не са част от стандартните данни за обучение на NER. Система без поддръжка на потребителски тип обект не може да ги открие.
Проблемът със съответствието на изследователския набор от данни
Болнична система, изграждаща деидентифициран набор от изследователски данни от 500 000 клинични бележки, е изправена пред комплексен риск. HIPAA изисква деидентифицираните набори от изследователски данни да отговарят на стандарта за „много малък риск“ съгласно метода Safe Harbor или статистическия подход при експертно определяне. Система, в която липсват 50% от PHI, създава набор от данни, който не отговаря на този стандарт - излагайки изследователската институция на прилагане на OCR и грешки в съответствие с IRB.
Клиничните бележки в набор от данни за изследване не са еднакви. Те обхващат различни отдели (кардиология, онкология, психиатрия), различни стилове на документация, различни времеви периоди и — в многоезичните здравни системи — различни езици. Система за деидентификация, която работи адекватно на структурирани данни за таксуване, може да се провали при неструктурирани бележки за напредък в психиатрията, където PHI се появява в контекст на разказ, а не в етикетирани полета.
Изискването за хибридно откриване
Изследователското проучване от 2025 г. идентифицира последователния модел: системите с най-високо извикване на PHI комбинират откриване на структурирани идентификатори (регулярни изрази за SSN, MRN, телефонни номера) с контекстуален NER (базирани на трансформатор модели за имена, дати в контекст на разказ) и персонализирана поддръжка на обекти (специфични за институцията идентификатори).
Чистите ML подходи постигат висока степен на запомняне на общи идентификатори в добре форматиран текст, но влошават съкращенията, редките типове идентификатори и неанглийския текст. Подходите с чисти регулярни изрази постигат висока степен на запомняне на структурирани идентификатори, но пропускат контекстуално PHI (името на лекар, споменато в клиничен разказ без префикс за заглавие).
Хибридната тристепенна архитектура — регулярен израз за структурирани идентификатори, NLP за контекстуален PHI, трансформиращи модели за междуезични и съкратени форми — е моделът, идентифициран от проучването като постигащ процент на пропуски под 5%, подходящ за съответствие с HIPAA Safe Harbor.
Източници:
- [arXiv:2509.14464: Проучване на инструменти за деидентификация, базирани на LLM, 2025] (https://arxiv.org/pdf/2509.14464)
- [Cyberhaven Q4 2025: 34,8% от въведените ChatGPT съдържат чувствителни данни] (https://www.cyberhaven.com/blog/4-2-of-workers-have-pasted-company-data-into-chatgpt)
- [HIPAA Правило за поверителност: Метод за деидентификация на Safe Harbor, 18 категории идентификатори] (https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html)