Не всі інструменти де-ідентифікації є однаковими
При оцінці інструментів де-ідентифікації PHI точність — це все. Різниця у 4% рівня виявлення може здатися незначною — доки ви не усвідомите, що 4% від мільйона записів — це 40 000 незахищених записів.
Нещодавні бенчмарки ECIR 2025 виявляють значні відмінності в точності виявлення PHI між провідними інструментами.
Результати бенчмарку ECIR 2025
| Інструмент | F1-показник | Точність | Повнота |
|---|---|---|---|
| John Snow Labs | 96% | 95% | 97% |
| Azure AI | 91% | 90% | 92% |
| AWS Comprehend Medical | 83% | 81% | 85% |
| GPT-4o | 79% | 82% | 76% |
F1-показник поєднує точність (скільки виявлених сутностей були правильними) та повноту (скільки реальних сутностей було виявлено). Обидва мають значення:
- Низька точність = хибнопозитивні результати (надлишкове редагування)
- Низька повнота = хибнонегативні результати (пропущені PHI)
Що приховують ці числа
Прогалини у виявленні специфічних для медицини сутностей
Генеральне призначення NER часто не вистачає:
- Номери медичних карток (MRN): немає стандартного формату, специфічно для закладу
- Ідентифікатори пристроїв: серійні номери медичних приладів
- Ідентифікатори досліджень: коди учасників досліджень
- Ідентифікатори лікаря: NPI, DEA-номери
Bagато загальних інструментів виявляють звичайні PHI (імена, дати) але пропускають специфічні для медицини ідентифікатори.
Мовна деградація
Бенчмарки зазвичай тестують лише на англійській мові. Ефективність на кількох мовах часто значно нижча:
- Іспанська: зниження на 8-15%
- Китайська: зниження на 25-40%
- Арабська: зниження на 30-50%
Чому це важливо для HIPAA
Згідно з методом Safe Harbor HIPAA, вам потрібно видалити всі 18 ідентифікаторів PHI. Навіть один пропущений ідентифікатор може:
- Відкрити організацію для відповідальності HIPAA
- Зробити «де-ідентифіковані» дані все ще особистими
- Несправедливо розкрити дані пацієнтів у дослідженнях
Різниця між 79% та 96% — це різниця між 4 пропущеними PHI на 20 та майже 1 пропущеним PHI.
Підхід anonym.legal
Ми використовуємо гібридний підхід, що поєднує:
Точність на основі ML:
- SpaCy NER моделі для 24 мов
- Transformer-based розпізнавачі для складних сутностей
- Специфічні для медицини навчені моделі
Детермінований рівень для відомих форматів:
- Валідація контрольних сум для SSN, IBAN, номерів кредитних карток
- Регулярні вирази для стандартних ідентифікаторів
- Специфічна для закладу логіка MRN через кастомні сутності
Результат: Показники точності у верхньому квартилі бенчмарку при повному охопленні 285+ типів сутностей.
Оцінка вашого інструменту де-ідентифікації
Ключові питання
- Який F1-показник для вашого конкретного типу даних та мови?
- Чи використовували ви тестовий набір даних з реальними клінічними нотатками?
- Як інструмент поводиться зі специфічними для установи форматами MRN?
- Чи підтримує він мови вашого пацієнтського населення?
- Чи є пояснення для кожного виявлення?
Початок роботи
- Переглянути наш список сутностей — 285+ охоплених типів
- Спробувати безкоштовно — 200 токенів
- Завантажити Desktop App для обробки на місці
Джерела: