Знахідки дослідження
Dослідження 2025 року (Artificial Intelligence in Medicine) виявило:
- LLM пропускають більше 50% клінічних PHI у багатомовних документах
- Англомовні LLM виконують особливо погано з не англійськими PHI
- Специфічні для клініки ідентифікатори (MRN, номери поліцейських клінік) майже повністю пропускаються
Чому LLM потерпають
Проблема 1: LLM не є детерміністичними
Льожна: LLM може ідентифікувати «Іван Петренко» як ім'я в одній відповіді але пропустити в іншій. Детерміністичні системи (NER + правила) є послідовними.
Проблема 2: LLM не знають про MRN
Medical Record Number у Saint Francis Health System виглядає по-іншому ніж у Mayo Clinic. LLM не мають цих специфічних для установи знань.
Проблема 3: LLM оптимізовані для мовного розуміння, не для виявлення PII
LLM може пояснити, що таке SSN, але не є надійним детектором всіх 18 PHI ідентифікаторів HIPAA.
Правильний підхід для HIPAA
HIPAA Safe Harbor вимагає видалення всіх 18 ідентифікаторів — не лише загальних. Це вимагає:
- Спеціалізованих NER моделей для PHI виявлення
- Детерміністичних правил для структурованих ідентифікаторів (SSN, IBAN)
- Специфічних для установи конфігурацій MRN
- Задокументованої методології для аудиту
anonym.legal надає вибіркову NER + детерміністичний підхід з 285+ типами сутностей включно з усіма 18 PHI ідентифікаторами HIPAA.
Джерела: