anonym.legal
Terug na BlogGesondheidsorg

PHI-Opvoeringskiekheid: John Snow Labs 96% vs. GPT-4o 79%

Nie alle de-identifikasie-hulpmiddels is gelyk nie. ECIR 2025 instelpunte toon F1-tellings wat wissel van 79% tot 96%.

February 24, 20267 min lees
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Nie Alle De-Identifikasie-Hulpmiddels is Gelyk nie

Wanneer PHI de-identifikasie-hulpmiddels evalueer, is noukeurigheid alles. 'n 4%-verskil in opvoeringkoers kan klein lyk—totdat jy besef dat 4% van 'n miljoen-rekord datastel 40,000 blootgestelde rekords is.

Onlangse instelpunte van ECIR 2025 openbaar dramatiese verskille in PHI-opvoeringskiekheid oor leidende hulpmiddels.

Die ECIR 2025 Instelpunt-Resultate

HulpmiddelF1-TellingNoukeurigheidTerugroeping
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

Die F1-telling kombineer noukeurigheid (hoeveel bespeurde entiteite was korrek) en terugroeping (hoeveel werklike entiteite is bespeur). Beide saak:

  • Lae noukeurigheid = vals-positiewe (oor-redigering)
  • Lae terugroeping = vals-negatiwe (gemiste PII = breuke)

Waarom die Gaping Bestaan

Opleidingsdata-Verskille

HulpmiddelOpleiding-Fokus
John Snow LabsGesondheid-spesifiek, kliniese notas
Azure AIAlgemeen mediese + kliniese
AWS ComprehendAlgemeen mediese entiteite
GPT-4oBreë opleiding, nie gesondheid-spesifiek

John Snow Labs se modelle word spesifiek op kliniese dokumentasie opgelei—die troebel, afgekorte, konteks-afhanklike teks wat gesondheid werklik produseer.

Entiteit-Tipe Bedekking

Nie alle hulpmiddels speur dieselfde entiteite op nie:

| Entiteit | John Snow | Azure | AWS | GPT-4o | |--------|-----------|-------|-----|------...

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.