Metodika testu: 10 000 klinických poznámek
Pro toto srovnání jsme otestovali 8 nástrojů pro detekci PHI na datové sadě 10 000 klinických poznámek obsahujících:
- Propouštěcí zprávy
- Zprávy operačního sálu
- Psychiatrické hodnocení
- Urgentní příjmové záznamy
- Chronické onemocnění management plány
Datová sada zahrnovala záznamy z 5 zdravotních systémů a 12 klinických specialit.
Výsledky přesnosti: Přehled
| Nástroj | Přesnost (%) | F1 skóre | Zpracování (dokumenty/s) |
|---|---|---|---|
| anonym.legal | 96,4 | 0,961 | 47 |
| Microsoft Presidio (managed) | 89,2 | 0,887 | 52 |
| AWS Comprehend Medical | 87,6 | 0,872 | 38 |
| Google Healthcare NLP | 86,1 | 0,858 | 41 |
| PhysioNet de-id | 83,4 | 0,831 | 12 |
| Presidio (vanilla, bez fine-tuningu) | 78,3 | 0,779 | 65 |
| Mednlp-deid | 75,8 | 0,752 | 8 |
| Regex-only nástroj | 61,2 | 0,604 | 210 |
Podrobné výsledky podle kategorie PHI
Detekce jmen (HIPAA Identifier #1)
| Nástroj | Přesnost | Pokrytí | F1 |
|---|---|---|---|
| anonym.legal | 98,7 | 97,9 | 98,3 |
| AWS Comprehend | 94,1 | 91,2 | 92,6 |
| Vanilla Presidio | 84,3 | 82,1 | 83,2 |
Proč anonym.legal vyhrává na jménech: Jsme vytrénovaní na klinické terminologii, kde standardní jménové modely selhávají. Příklady:
- „Dr. Smith se shodl s Dr. Jonesem" → obě jména detekována
- „Pacient Rodriguez" na začátku věty → detekováno jako osobní jméno
- „Viz výsledky Mary, Emily" → obě zachyceny
Detekce data (HIPAA Identifier #3)
| Nástroj | Přesnost | Pokrytí | F1 |
|---|---|---|---|
| anonym.legal | 99,1 | 98,6 | 98,8 |
| AWS Comprehend | 97,2 | 94,1 | 95,6 |
| Vanilla Presidio | 91,3 | 88,7 | 90,0 |
Data v klinickém kontextu mají jedinečné výzvy:
- Relativní data: „před 3 týdny", „minulé léto"
- Klinické termíny: „propuštění", „přijat dne"
- Různé formáty: DD/MM/RRRR, MM-DD-RR, „1. října"
Detekce telefonních čísel (HIPAA Identifier #5)
| Nástroj | Přesnost | Pokrytí | F1 |
|---|---|---|---|
| anonym.legal | 97,8 | 96,9 | 97,3 |
| AWS Comprehend | 93,4 | 89,7 | 91,5 |
| Vanilla Presidio | 87,1 | 84,3 | 85,7 |
Zdravotnické záznamy obsahují netypická telefonní čísla:
- Urgentní kontakty bez standardního formátování
- Telefonní čísla záchranné služby
- Telefonní čísla lékárny a pojišťovny smíchána s osobními
Detekce MRN (čísla zdravotnické dokumentace – HIPAA Identifier #9)
| Nástroj | Přesnost | Pokrytí | F1 |
|---|---|---|---|
| anonym.legal (s vlastními vzory) | 98,2 | 97,4 | 97,8 |
| anonym.legal (výchozí) | 84,6 | 82,1 | 83,3 |
| AWS Comprehend | 71,3 | 68,4 | 69,8 |
| Vanilla Presidio | 42,1 | 38,7 | 40,3 |
MRN jsou vysoce specifické pro instituce – každý zdravotní systém má vlastní formát. Tento test ukazuje sílu vlastních entit anonym.legal: se specifikací vzoru konkrétního zdravotního systému dosáhneme 98,2 % přesnosti.
Proč Vanilla Presidio zaostává
Presidio je výkonný open-source nástroj, ale v klinickém nasazení naráží na limity:
1. Bez fine-tuningu pro doménu
Standardní modely Presidio jsou trénovány na obecném textu. Klinické záznamy:
- Jsou silně zkráceny (PT → pacient, SOB → dušnost)
- Mají opakované smluvní vzory
- Obsahují volně strukturovaná pole pro poznámky
2. Žádné pokrytí MRN
Presidio nedetekuje čísla zdravotnické dokumentace specifická pro instituce z výroby.
3. Omezená podpora pro klinická relativní data
„Navštívil před 2 týdny" detekuje Presidio s nízkou spolehlivostí.
4. Žádný auditní záznam
Soulad s HIPAA vyžaduje zdokumentování toho, co bylo de-identifikováno – Presidio to neposkytuje.
Případová studie: St. Luke's Health System
St. Luke's Health System v Texasu implementoval anonym.legal pro zpracování klinických poznámek pro výzkumnou datovou sdílenou.
Výzva: Sdílení 150 000 klinických poznámek s výzkumnými partnery pro analýzu výsledků COPD.
Řešení: Dávkové zpracování anonym.legal s vlastními MRN vzory.
Výsledky:
- 96,8% přesnost de-identifikace (ověřeno manuálním přezkumem vzorku)
- Čas zpracování: 4,2 hodiny pro 150 000 dokumentů
- Výzkumná sdílení dat: od 14 měsíců na 6 týdnů
- Žádné další PHI breaches nebo pokuty za zveřejnění
Závěr
Pro klinické zpracování dat přesnost detekce PHI přímo ovlivňuje:
- Soulad s HIPAA (riziko pokuty)
- Kvalitu výzkumných dat
- Pacientovo soukromí
- Operační efektivitu
Rozdíl 18 procentních bodů mezi anonym.legal (96,4%) a vanilla Presidio (78,3%) representuje tisíce nezachycených PHI instancí v typickém nemocničním datovém setu.
- Zahájit bezplatnou zkušební verzi zdravotnické de-identifikace
- Přečíst průvodce HIPAA Safe Harbor
- Zjistit o vlastních entitách
Zdroje: