Niso vsa orodja za de-identifikacijo enaka
Pri vrednotenju orodij za de-identifikacijo PHI je natančnost vse. 4-odstotna razlika v stopnji zaznave se morda zdi majhna – dokler si ne predstavljate, da je 4% milijonskega nabora podatkov 40.000 izpostavljenih zapisov.
Nedavna merila iz ECIR 2025 razkrivajo dramatične razlike v natančnosti zaznave PHI v vodilnih orodjih.
Rezultati merila ECIR 2025
| Orodje | F1-rezultat | Natančnost | Priklič |
|---|---|---|---|
| John Snow Labs | 96% | 95% | 97% |
| Azure AI | 91% | 90% | 92% |
| AWS Comprehend Medical | 83% | 81% | 85% |
| GPT-4o | 79% | 82% | 76% |
F1-rezultat kombinira natančnost (koliko zastopanosti je bilo pravilnih) in priklič (koliko dejanskih entitet je bilo zaznanih). Oboje je važno:
- Nizka natančnost = napačne pozitivke (prekratek dopis)
- Nizek priklič = negotove pozitivke (propuščeni PII = kršitve)
Zakaj obstaja razlika
Razlike podatkov za usposabljanje
| Orodje | Fokus usposabljanja |
|---|---|
| John Snow Labs | Zdravstvo, klinični zapiski |
| Azure AI | Splošno medicinsko + klinično |
| AWS Comprehend | Splošno medicinsko |
| GPT-4o | Širok trening, ne zdravstvo |
Modeli John Snow Labs so trenirani posebej na klinični dokumentaciji – nemirnem, okrajšanem, odvisnem od konteksta besedilu, ki ga zdravstvo proizvaja.