anonym.legal
Terug na BlogTegnies

Presidio se Valse-Positiefkoste: Wanneer 'n...

Presidio 'over-redacts'. 'n Mediese sentrum wat met Presidio werk het verloor munisipale kontrakke as gevolg van oor-aggressiewe redigering.

March 23, 20268 min lees
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Die Presidio Dilemma

Presidio is 'n magtige open-bron NER-motor, gebou deur Microsoft. Dit kry baie reg. Dit kry baie verkeerd—en verkeerd beteken dikwels "oor-redigeer."

Een mediese sentrum het Presidio-gebaseerde redigering op sensoriese byderhandse rapporte toegepas. Die dokumente was "veilig"—alles wat lyk soos 'n nommer was swart.

Maar hulle het mediese betekenis verwyder. Doseerskedules, laboratorium-waardes, patho-nommers—alles redigeer.

Gevolg? 'n Munisipale gesondheidsafdeling het die kontrak gekanselleer as gevolg van onsuitbaarheid.

Valse-Positiewe vs. Valse-Negatiefe

In PII-opvoering, beide tipes foute is kostelyk—maar op verskillende maniere:

Fout-tipeGevolgKoste
Valse-Positief (oor-redigeer)Dokumente onlesbaar/onbruikbaarProduksie-vertragings, ongeldige datasette, hoë handmatige beoordeling
Valse-Negatief (gemis PII)Data-breuk-risikoReglementasie-boetes, reputasie-skade, verlieste kliënte

Beiden is erg. Maar valse-positiewe word dikwels ondergewaardeer—totdat jou datasette nutteloos word.

Presidio se Akkuraatheidsgaping

Volgens die ECIR 2025-studie wat vroeër genoem is, het Presidio 'n F1-telling van ongeveer 82%—wat klink goed totdat jy dit vergelyk:

  • John Snow Labs: 96% (beste-in-klas)
  • Presidio: ~82% (goed vir open-bron)
  • Verskil: 14 persentasiepunte = 1 gemiste PII-entiteit per 7 skannerings

Vir 'n dataset van 100,000 dokumente, beteken dit gemiddeld 14,000 gemiste PII-entiteite.

Wanneer Presidio Werk

Presidio blink uit in:

  • Gestruktureerde data: CSV-lêers, struktureerde logs, geformateerde tabelle
  • Duidelike teks: Goed-gespaseerde, goed-gespelde brondokumente
  • Engelse domein: Die meeste tipe-ingenieur ingewortelde modelle

Wanneer Presidio Misluk

Presidio sukkel met:

  • Handgeskrewe teks: Skanderings van faks of foto's
  • Besmette OCR: Teks uit skewe/beskadigde dokumente
  • Kontekstuele entiteite: Organisasienaam, ortname wat soos gewone woorde lyk
  • Nie-Engels: Swak presisie op Hindi, Arabies, Chinees
  • Domein-spesifieke PII: Kliniese laboratorium-identifiseerders, finansiële rekeningnommers, sekuriteits-ID-nommers

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.