Nie všetky nástroje de-identifikácie sú rovnaké
Keď hodnotíte nástroje na de-identifikáciu PHI, presnosť je všetko. Rozdiel 4% v miery detekcie sa môže zdať malý—až kým si neuvedomíte, že 4% z milióna záznamov dataset je 40 000 odhalených záznamov.
Nedávne porovnávacie testy z ECIR 2025 odhaľujú dramatické rozdiely v presnosti detekcie PHI v rámci vedúcich nástrojov.
Výsledky porovnávacích testov ECIR 2025
| Nástroj | Skóre F1 | Presnosť | Spätný vznik |
|---|---|---|---|
| John Snow Labs | 96% | 95% | 97% |
| Azure AI | 91% | 90% | 92% |
| AWS Comprehend Medical | 83% | 81% | 85% |
| GPT-4o | 79% | 82% | 76% |
Skóre F1 kombinuje presnosť (koľko detegovaných entít bolo správnych) a spätný vznik (koľko skutočných entít bolo detegované). Obidve na vážnosti:
- Nízka presnosť = falošné pozitíva (nadmerná redakcia)
- Nízky spätný vznik = falošné negatíva (zmeškané PII = porušenia)
Prečo rozdiel existuje
Rozdiely v trénovacích údajoch
| Nástroj | Zameranie trénovania |
|---|---|
| John Snow Labs | Špecifické pre zdravotníctvo, klinické noty |
| Azure AI | Všeobecné medicínske + klinické |
| AWS Comprehend | Všeobecné medicínske entity |
| GPT-4o | Rozsáhle trénovanie, nie špecifické pre zdravotníctvo |
Modely John Snow Labs sú trénované špecificky na klinickej dokumentácii—neporiadnej, skrátenej, kontextne závislej texte, ktorý zdravotníctvo skutočne vyrábí.
Pokrytie typu entity
Nie všetky nástroje detegujú rovnaké entity:
| Entity | John Snow | Azure | AWS | GPT-4o | |--------|-----------|-------|-----|------...