Ang 22.7% na Problema sa Precision ng Presidio
Ang mga false positive sa PII detection ay nagdudulot ng tunay na pinsala. Kapag ang 77.3% ng inilalagay ng iyong tool na flag bilang "mga pangalan ng tao" ay hindi tunay na mga pangalan, hindi ka nagpoprotekta ng privacy. Sinisira mo ang data.
Isang benchmark noong 2024 ang sumubok sa default na NER model ng Microsoft Presidio sa mga business document. Sinasaklaw ng pagsubok ang mga financial report, sulat sa customer, mga dokumento ng produkto, at mga support ticket. Ang resulta: 22.7% na precision para sa name detection.
Ang numerong iyon ay kapansin-pansin. Para sa bawat 100 item na na-flag, 23 ang tunay na indibidwal na pangalan. Ang iba pang 77 ay mga false positive — mga label ng produkto, mga term ng brand, o mga label ng lungsod.
Tatlo sa apat na deteksyon ay mali. Hindi ito isang menor na isyu sa calibration. Ito ay isang sirang tool para sa trabaho sa business document.
Bakit Nangyayari Ito
Gumagamit ang Presidio ng en_core_web_lg model ng spaCy bilang default. Ang model na ito ay natuto mula sa teksto ng balita. Sa balita, karamihan sa mga tamang pangalan ay tunay na mga tao o lugar.
Ang mga business document ay iba.
Mga label ng produkto na mukhang indibidwal na pangalan. Ang "Apple iPhone 15 Pro shipment records" ay na-flag bilang PERSON. Gayundin ang "Samsung Galaxy Tab" at "Cisco Meraki deployment."
Mga term ng kumpanya na may bahaging mukhang pangalan. Sa "Johnson Controls results," ang salitang "Johnson" ay na-flag bilang PERSON. Ang "Goldman Sachs portfolio" ay nagti-trigger ng parehong error.
Mga label ng lokasyon na nagti-trigger ng person detection. Ang "Victoria Harbour project" ay naglalagay ng flag sa "Victoria" bilang PERSON. Ang "Santiago hub" ay naglalagay ng flag sa "Santiago" sa parehong paraan.
Walang konteksto ang model para mapaghiwalaay ang "Apple" (kumpanya) mula sa "Apple Smith" (isang tao). Ang agwat na iyon ang ugat ng karamihan sa mga false positive. Tinuruan siya ng teksto ng balita na tratuhin ang mga tamang pangalan bilang mga tao o lugar. Ang business text ay lumalabag sa patakarang iyon sa lahat ng oras.
Ang Downstream na Epekto
Gumamit ang isang data firm ng Presidio para linisin ang mga survey ng customer bago ibahagi ang mga ito. Natuklasan ng isang audit ang apat na problema. Una, 40% ng mga survey ay may mga label ng produkto na mali ang pagtatanggal. Pangalawa, ang mga label ng lungsod ay inalis mula sa bawat tugon. Pangatlo, ang mga pagbanggit ng brand ay inalis mula sa set ng pagsusuri. Pang-apat, ang sentiment tungkol sa mga partikular na produkto ay hindi mabasahan.
Nakatanggap ang koponan ng pagsusuri ng redacted na teksto na inalis ang lahat ng mga sanggunian sa produkto. Ang survey ay orihinal na nagbanggit ng iPhone Pro at ng Apple charger. Nawala ang kahulugang iyon.
Hindi mas pinoprotektahan ng firm ang privacy. Sinisira nito ang data nang walang nakukuhang compliance. Pinalitan ang Presidio pagkatapos ng audit.
Tingnan ang aming compliance overview para sa kung paano nakakaapekto ang kalidad ng deteksyon sa iyong katayuan sa regulasyon.
Isang Mas Magandang Paraan: Hybrid Detection
Ang problema ay hindi natatangi sa Presidio. Ang token-level NER na walang konteksto ay palaging magkakaroon ng isyung ito. Ang solusyon ay context-aware detection.
Bakit nakakatulong ang mga transformer: Isang model tulad ng XLM-RoBERTa ang nagbabasa ng buong pangungusap. "Apple announced its earnings" → Apple ay isang kumpanya. "Apple Smith joined the team" → Apple ay isang pangalan. Sinasabi sa iyo ng konteksto kung alin ang alin.
Pinapabuti nito ang precision habang pinapanatiling mataas ang recall. Tingnan ang paghahambing sa ibaba.
| Paraan | Precision | Recall |
|---|---|---|
| Presidio default NER | 22.7% | ~85% |
| Regex-only | ~95% | ~40% |
| Hybrid (Regex + NLP + Transformer) | ~85% | ~80% |
Naaabot ng hybrid approach ang 85% na precision. Nangangahulugan iyon ng 15% na false positive rate. Mas mabuti kaysa 77.3%. Para sa mga business document, mahalaga ang agwat na ito.
Ang hybrid stack ay may apat na hakbang:
-
Regex layer: Naghahanap ng mga structured ID — mga email, numero ng telepono, SSN, IBAN. Ang mga format ay naayos na, kaya't bihirang mag-false positive. Ito ay unang tumatakbo.
-
NLP layer (spaCy): Standard NER para sa mga tao, kumpanya, at lugar. Mataas na recall, mas mababang precision.
-
Transformer layer (XLM-RoBERTa): Binibigyan muli ng puntos ang bawat resulta ng NLP gamit ang buong konteksto ng pangungusap. Ang "Apple" sa konteksto ng produkto ay nawawalan ng entity score. Ang "John" sa teksto ng reklamo ay nakakakuha ng mas mataas.
-
Confidence threshold: Ang mga hit na nasa itaas lamang ng isang nakatakdang marka ang pumupunta sa output. Itaas ang threshold para sa mga analytics use case. Ibaba ito para sa HIPAA de-identification.
Mga Resulta Pagkatapos Lumipat
Lumipat ang analytics firm sa hybrid detection. Malinaw ang mga nadapatang benepisyo. Ang mga false positive ng label ng produkto ay bumaba mula 40% hanggang 3%. Ang mga false positive ng label ng lungsod ay halos nawala. Ang tunay na identity recall ay nanatili sa ~82%, bahagyang bumaba mula 85%, ngunit ang precision ay malaki ang pagbuti.
Naging magamit muli ang mga survey. Ang "iPhone," "Apple," "Samsung," at "Chicago" ay nanatili sa teksto. Ang mga pangalan ng customer sa mga konteksto ng reklamo ay tamang natanggal.
Nangangailangan ng mas maraming compute ang hybrid detection. Para sa malalaking trabaho, medyo mas matagal ang mga oras ng pagtakbo. Para sa karamihan ng mga business use case, sulit ang pagkamit ng katumpakan. Maaari nang muling magsagawa ng pagsusuri ang firm. Iyon ang buong punto ng survey data.
Basahin ang tungkol sa aming paraan ng deteksyon sa security overview.
Kailan Katanggap-tanggap ang Mataas na Rate ng False Positive
May ilang kaso na pabor ang recall kaysa precision.
HIPAA Safe Harbor: Ang pagkawala ng isang tunay na positibo ay isang paglabag. Ang 10% na false positive rate ay maayos kung ang tunay na PHI ay hindi kailanman napapabayaan. Ang over-removal ay mas ligtas kaysa under-removal.
Pagsusuri ng legal: Ang pagkawala ng isang privileged na contact ay maaaring mag-waive ng privilege. Ang mga false positive ay nangangailangan ng pagsusuri ngunit hindi naglilikha ng pananagutan.
Business analytics: Ang over-removal ay sumisira ng data nang walang pakinabang sa compliance. Mas mahalaga dito ang precision. Gumamit ng hybrid approach na may mataas na confidence threshold. Pinapanatili nito ang mga label ng brand at mga term ng lungsod sa output. Tanging ang mga tunay na pangalan ng tao ang natatanggal.
Ang tamang balanse ay nakasalalay sa iyong use case. Ang mga tool na nagpapahintulot sa iyo na itakda ang threshold ay nagbibigay sa iyo ng kontrol. Walang single default na gumagana para sa bawat konteksto.
Tingnan ang aming FAQ para sa mga karaniwang tanong tungkol sa mga threshold at detection mode.
Konklusyon
Ang 22.7% na precision rate ay nangangahulugang 3 sa 4 na deteksyon ay mali. Para sa mga business document, ginagawa nitong hindi magamit ang output para sa pagsusuri. Nagbibigay rin ito ng maling kumpiyansa sa compliance.
Inaayos ng hybrid detection ang ito. Pinagsasama nito ang regex, NLP, at transformer scoring. Nananatiling kapaki-pakinabang ang data pagkatapos ng anonymization. Tinatanggal ang mga tunay na pangalan ng tao. Ang mga label ng brand, mga term ng lungsod, at mga identifier ng produkto ay nananatili.
Kung umalis ka sa Presidio dahil sa mga isyu sa false positive, ito ang landas na dapat sundan. Hindi isang bagong config ng parehong model. Isang ibang arkitektura na itinayo para sa mga konteksto ng business document.
Mga Pinagkukunan
Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.
Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.