Atpakaļ uz BloguVeselības Aprūpe

PHI Atklāšanas Precizitāte: John Snow Labs 96% pret...

Ne visi de-identificēšanas rīki ir vienādi. ECIR 2025 salīdzinājumi parāda F1 punktus no 79% līdz 96%.

February 24, 20267 min lasīšanai
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Ne Visi De-Identificēšanas Rīki Nav Vienādi

Novērtējot PHI de-identificēšanas rīkus, precizitāte ir viss. 4% starpība atklāšanas ātrumā var izklausīties maza — līdz jūs apzināties, ka 4% no miljona ierakstu datu kopas ir 40 000 atklātu ierakstu.

Nesenajie salīdzinājumi no ECIR 2025 atklāj dramatiski atšķirības PHI atklāšanas precizitātes vadošos rīkos.

ECIR 2025 Salīdzinājumu Rezultāti

RīksF1-PunktsPrecizitāteAtgādinājums
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

F1-punkts apvieno precizitāti (cik daudz atklātie elementu bija pareizi) un atgādinājumu (cik daudz faktiskos elementu tika atklāti). Abas jautā:

  • Zema precizitāte = viltus pozitīvi (pārpratums redakcija)
  • Zems atgādinājums = viltus negatīvi (nokavēts PII = pārkāpums)

Kāpēc Atšķirībā Pastāv

Apmācības Datu Atšķirības

RīksApmācības Fokuss
John Snow LabsVeselības aprūpes-specifisks, klīniskas notas
Azure AIVispārējā medicīna + klīniskas
AWS ComprehendVispārējā medicīnas elementi
GPT-4oPlašā apmācība, nevis veselības aprūpes-specifisks

John Snow Labs modeļi ir apmācīti speciāli klīniskajā dokumentālijā — grūtā, saīsinātā, konteksta atkarībā teksta, kāda veselības aprūpe faktiski rada.

Elementu Veida Pārklājums

Ne visi rīki atklāj tādus pašus elementus:

| Elements | John Snow | Azure | AWS | GPT-4o | |--------|-----------|-------|-----|------...

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.