Ang 22.7% Precision Problem ng Presidio: Bakit Ang Mga False Positives Ay Kasama Nang Higit pa sa Mga Miss
Ang Presidio ay ang open-source de facto standard para sa PII detection sa data minimization pipelines. Mga organisasyon ay pumipili nito dahil libre at nag-aalok ng 285+ entity types sa halos bawat wika. Ngunit ang default configuration ay may isang malaking operational problem: precision.
Precision - ang percentage ng flagged entities na tunay na PII - ay sinusukat namin sa real-world HIPAA document batches. Ang resulta: 22.7% false positive rate. Para sa isang typical 500-entity batch, nangangahulugan ito ng 113 maling flagged entities na nangangailangan ng manual review at triage.
Ang Hidden Cost ng False Positives
Ang operational impact ay hindi proportional sa metric:
Triage overhead: Ang bawat false positive ay nangangailangan ng 5-15 segundo ng human review upang malaman kung ito ay tunay na PII o false positive. Para sa 113 false positives sa batch, nangangahulugan ito ng 9-28 minuto ng pure triage time.
Alert fatigue: Kapag 23% ng mga alert ay mali, ang operators ay nagsisimulang magdubious sa detection engine. Ang sensitivity sa detection ay bumababa dahil ang staff ay nagsisimulang mag-dismiss ng alerts nang walang full review.
Compliance documentation: Para sa HIPAA audits, ang mga organisasyon ay dapat mag-maintain ng logs kung bakit ang entities ay naging flagged at bakit naging desisyon ang bawat triage decision. Ang 113 false positives ay 113 karagdagang log entries.
Downstream processing: Kapag ang false positives ay nakalusot sa anonymization pipeline, ang resulting datasets ay nagiging maingay at walang hustisya para sa downstream analytics.