Die Presidio Dilemma
Presidio is 'n magtige open-bron NER-motor, gebou deur Microsoft. Dit kry baie reg. Dit kry baie verkeerd—en verkeerd beteken dikwels "oor-redigeer."
Een mediese sentrum het Presidio-gebaseerde redigering op sensoriese byderhandse rapporte toegepas. Die dokumente was "veilig"—alles wat lyk soos 'n nommer was swart.
Maar hulle het mediese betekenis verwyder. Doseerskedules, laboratorium-waardes, patho-nommers—alles redigeer.
Gevolg? 'n Munisipale gesondheidsafdeling het die kontrak gekanselleer as gevolg van onsuitbaarheid.
Valse-Positiewe vs. Valse-Negatiefe
In PII-opvoering, beide tipes foute is kostelyk—maar op verskillende maniere:
| Fout-tipe | Gevolg | Koste |
|---|---|---|
| Valse-Positief (oor-redigeer) | Dokumente onlesbaar/onbruikbaar | Produksie-vertragings, ongeldige datasette, hoë handmatige beoordeling |
| Valse-Negatief (gemis PII) | Data-breuk-risiko | Reglementasie-boetes, reputasie-skade, verlieste kliënte |
Beiden is erg. Maar valse-positiewe word dikwels ondergewaardeer—totdat jou datasette nutteloos word.
Presidio se Akkuraatheidsgaping
Volgens die ECIR 2025-studie wat vroeër genoem is, het Presidio 'n F1-telling van ongeveer 82%—wat klink goed totdat jy dit vergelyk:
- John Snow Labs: 96% (beste-in-klas)
- Presidio: ~82% (goed vir open-bron)
- Verskil: 14 persentasiepunte = 1 gemiste PII-entiteit per 7 skannerings
Vir 'n dataset van 100,000 dokumente, beteken dit gemiddeld 14,000 gemiste PII-entiteite.
Wanneer Presidio Werk
Presidio blink uit in:
- Gestruktureerde data: CSV-lêers, struktureerde logs, geformateerde tabelle
- Duidelike teks: Goed-gespaseerde, goed-gespelde brondokumente
- Engelse domein: Die meeste tipe-ingenieur ingewortelde modelle
Wanneer Presidio Misluk
Presidio sukkel met:
- Handgeskrewe teks: Skanderings van faks of foto's
- Besmette OCR: Teks uit skewe/beskadigde dokumente
- Kontekstuele entiteite: Organisasienaam, ortname wat soos gewone woorde lyk
- Nie-Engels: Swak presisie op Hindi, Arabies, Chinees
- Domein-spesifieke PII: Kliniese laboratorium-identifiseerders, finansiële rekeningnommers, sekuriteits-ID-nommers