anonym.legal
Назад до блогуОхорона здоров'я

Чому LLM пропускають 50% клінічних PHI...

Дослідження 2025 року виявило, що LLM пропускають більше 50% клінічних PHI у багатомовних документах.

April 2, 20269 хв читання
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Знахідки дослідження

Dослідження 2025 року (Artificial Intelligence in Medicine) виявило:

  • LLM пропускають більше 50% клінічних PHI у багатомовних документах
  • Англомовні LLM виконують особливо погано з не англійськими PHI
  • Специфічні для клініки ідентифікатори (MRN, номери поліцейських клінік) майже повністю пропускаються

Чому LLM потерпають

Проблема 1: LLM не є детерміністичними

Льожна: LLM може ідентифікувати «Іван Петренко» як ім'я в одній відповіді але пропустити в іншій. Детерміністичні системи (NER + правила) є послідовними.

Проблема 2: LLM не знають про MRN

Medical Record Number у Saint Francis Health System виглядає по-іншому ніж у Mayo Clinic. LLM не мають цих специфічних для установи знань.

Проблема 3: LLM оптимізовані для мовного розуміння, не для виявлення PII

LLM може пояснити, що таке SSN, але не є надійним детектором всіх 18 PHI ідентифікаторів HIPAA.

Правильний підхід для HIPAA

HIPAA Safe Harbor вимагає видалення всіх 18 ідентифікаторів — не лише загальних. Це вимагає:

  1. Спеціалізованих NER моделей для PHI виявлення
  2. Детерміністичних правил для структурованих ідентифікаторів (SSN, IBAN)
  3. Специфічних для установи конфігурацій MRN
  4. Задокументованої методології для аудиту

anonym.legal надає вибіркову NER + детерміністичний підхід з 285+ типами сутностей включно з усіма 18 PHI ідентифікаторами HIPAA.


Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.