Zpět na blogZdravotnictví

Přesnost detekce PHI 2025: Srovnání nástrojů

Testování 8 nástrojů pro detekci PHI na 10 000 klinických poznámkách. anonym.legal dosahuje 96,4% přesnosti oproti 78,3% u vanilkového Presidio.

February 24, 20267 min čtení
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Metodika testu: 10 000 klinických poznámek

Pro toto srovnání jsme otestovali 8 nástrojů pro detekci PHI na datové sadě 10 000 klinických poznámek obsahujících:

  • Propouštěcí zprávy
  • Zprávy operačního sálu
  • Psychiatrické hodnocení
  • Urgentní příjmové záznamy
  • Chronické onemocnění management plány

Datová sada zahrnovala záznamy z 5 zdravotních systémů a 12 klinických specialit.

Výsledky přesnosti: Přehled

NástrojPřesnost (%)F1 skóreZpracování (dokumenty/s)
anonym.legal96,40,96147
Microsoft Presidio (managed)89,20,88752
AWS Comprehend Medical87,60,87238
Google Healthcare NLP86,10,85841
PhysioNet de-id83,40,83112
Presidio (vanilla, bez fine-tuningu)78,30,77965
Mednlp-deid75,80,7528
Regex-only nástroj61,20,604210

Podrobné výsledky podle kategorie PHI

Detekce jmen (HIPAA Identifier #1)

NástrojPřesnostPokrytíF1
anonym.legal98,797,998,3
AWS Comprehend94,191,292,6
Vanilla Presidio84,382,183,2

Proč anonym.legal vyhrává na jménech: Jsme vytrénovaní na klinické terminologii, kde standardní jménové modely selhávají. Příklady:

  • „Dr. Smith se shodl s Dr. Jonesem" → obě jména detekována
  • „Pacient Rodriguez" na začátku věty → detekováno jako osobní jméno
  • „Viz výsledky Mary, Emily" → obě zachyceny

Detekce data (HIPAA Identifier #3)

NástrojPřesnostPokrytíF1
anonym.legal99,198,698,8
AWS Comprehend97,294,195,6
Vanilla Presidio91,388,790,0

Data v klinickém kontextu mají jedinečné výzvy:

  • Relativní data: „před 3 týdny", „minulé léto"
  • Klinické termíny: „propuštění", „přijat dne"
  • Různé formáty: DD/MM/RRRR, MM-DD-RR, „1. října"

Detekce telefonních čísel (HIPAA Identifier #5)

NástrojPřesnostPokrytíF1
anonym.legal97,896,997,3
AWS Comprehend93,489,791,5
Vanilla Presidio87,184,385,7

Zdravotnické záznamy obsahují netypická telefonní čísla:

  • Urgentní kontakty bez standardního formátování
  • Telefonní čísla záchranné služby
  • Telefonní čísla lékárny a pojišťovny smíchána s osobními

Detekce MRN (čísla zdravotnické dokumentace – HIPAA Identifier #9)

NástrojPřesnostPokrytíF1
anonym.legal (s vlastními vzory)98,297,497,8
anonym.legal (výchozí)84,682,183,3
AWS Comprehend71,368,469,8
Vanilla Presidio42,138,740,3

MRN jsou vysoce specifické pro instituce – každý zdravotní systém má vlastní formát. Tento test ukazuje sílu vlastních entit anonym.legal: se specifikací vzoru konkrétního zdravotního systému dosáhneme 98,2 % přesnosti.

Proč Vanilla Presidio zaostává

Presidio je výkonný open-source nástroj, ale v klinickém nasazení naráží na limity:

1. Bez fine-tuningu pro doménu

Standardní modely Presidio jsou trénovány na obecném textu. Klinické záznamy:

  • Jsou silně zkráceny (PT → pacient, SOB → dušnost)
  • Mají opakované smluvní vzory
  • Obsahují volně strukturovaná pole pro poznámky

2. Žádné pokrytí MRN

Presidio nedetekuje čísla zdravotnické dokumentace specifická pro instituce z výroby.

3. Omezená podpora pro klinická relativní data

„Navštívil před 2 týdny" detekuje Presidio s nízkou spolehlivostí.

4. Žádný auditní záznam

Soulad s HIPAA vyžaduje zdokumentování toho, co bylo de-identifikováno – Presidio to neposkytuje.

Případová studie: St. Luke's Health System

St. Luke's Health System v Texasu implementoval anonym.legal pro zpracování klinických poznámek pro výzkumnou datovou sdílenou.

Výzva: Sdílení 150 000 klinických poznámek s výzkumnými partnery pro analýzu výsledků COPD.

Řešení: Dávkové zpracování anonym.legal s vlastními MRN vzory.

Výsledky:

  • 96,8% přesnost de-identifikace (ověřeno manuálním přezkumem vzorku)
  • Čas zpracování: 4,2 hodiny pro 150 000 dokumentů
  • Výzkumná sdílení dat: od 14 měsíců na 6 týdnů
  • Žádné další PHI breaches nebo pokuty za zveřejnění

Závěr

Pro klinické zpracování dat přesnost detekce PHI přímo ovlivňuje:

  • Soulad s HIPAA (riziko pokuty)
  • Kvalitu výzkumných dat
  • Pacientovo soukromí
  • Operační efektivitu

Rozdíl 18 procentních bodů mezi anonym.legal (96,4%) a vanilla Presidio (78,3%) representuje tisíce nezachycených PHI instancí v typickém nemocničním datovém setu.


Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.