Ang Buwis ng False Positive sa mga Tool ng PII Detection
Na-update para sa 2026
Karamihan sa mga PII tool ay sinusuri batay sa recall. Sinusukat ng recall kung anong bahagi ng tunay na PII ang natuklasan ng tool. Ngunit mahalaga rin ang precision. Sinusukat ng precision kung anong bahagi ng mga alerto ng tool ang tunay na PII.
Mahal ang mababang precision. Ang isang sistema na may 95% recall at 22.7% precision ay humahanap ng karamihan sa PII. Ngunit para sa bawat tunay na entity ng PII na nifi-flag nito, nagdadala rin ito ng 3.4 na maling alerto. Sa isang dataset na may 10,000 tunay na entity ng PII, ang sistemang iyon ay nagpapalabas ng humigit-kumulang 44,000 na alerto. Mga 34,000 sa kanila ay mali. Bawat isa ay nagkakahalaga ng oras para suriin o nagiging sanhi ng labis na redaction.
Ito ang buwis ng false positive. Ito ang overhead na binabayaran ng anumang koponan kapag nagpapatakbo ng high-recall, low-precision na PII system sa malaking sukat. Ang direktang gastos ay oras ng reviewer. Ang hindi direktang gastos ay mas masahol pa: tinatago ng mga labis na na-redact na dokumento ang kapaki-pakinabang na data, nagpapabagal ng trabaho, at ginagawang hindi pinagkakatiwalaan ang tool.
Ano ang Ipinapakita ng Presidio Issue #1071
Ang Microsoft Presidio GitHub discussion #1071 (2024) ay nag-rerekord ng isang tiyak na pattern. Gumagamit ang mga TFN (Tax File Number) at PCI recognizer ng checksum validation. Ang mga numero na pumasa sa checksum ay nakatanggap ng score na 1.0 — pinakamataas na kumpiyansa. Hindi kailangan ang konteksto ng PII.
Ang ugat na sanhi: tumatakbo ang pagsusuri ng context word pagkatapos ng hakbang ng checksum, hindi bago. Ang isang numero na pumasa sa checksum ay nakakakuha ng pinakamataas na score anuman ang nakapaligid na teksto. Sa mga financial spreadsheet, scientific dataset, o log file, binabaha nito ang output ng mga maling alerto. Hindi kayang ayusin ito ng score threshold filtering. Nasa pinakamataas na antas na ang mga score.
Lumabas ang pangalawang pattern sa Presidio issue #999. Nasisira ang segmentasyon ng salita ng German para sa mga compound na pangngalan. Ang mga salita tulad ng Bundesbehörde (pederal na awtoridad) ay maaaring hatiin nang hindi tama at ma-tag bilang mga personal na pangalan. Nagdaragdag ito ng ingay sa anumang dokumento sa wikang German.
Ang Problema sa 22.7% na Precision
Sinubukan ni Alvaro et al. (2024) ang Presidio sa mga mixed-language na enterprise dataset. Natuklasan nila ang 22.7% precision. Sa mga tunay na dokumento, wala pang isa sa apat na alerto ng Presidio ang isang tunay na entity ng PII. Naaayon ito sa iniuulat ng mga practitioner. Ang isang tool na naka-tune para sa recall lamang ay nagpo-produce ng masyadong maraming ingay para sa paggamit sa produksyon.
Isang pag-aaral ng DICOM noong 2024 ang nagpakita na ang pagtataas ng score_threshold sa 0.7 ay nag-iwan pa rin ng mga maling alerto sa 38 sa 39 medikal na imahe. Ang isang threshold na nag-aalis ng ingay sa isang uri ng dokumento ay lumilikha ng mga napalampas na pagtuklas sa isa pa.
Ito ay hindi problema lamang ng Presidio. Anumang nakatakdang threshold ay nagpipilit ng trade-off. Ang mataas na threshold ay nagbabawas ng ingay ngunit nagpapataas ng mga miss. Ang mababang threshold ay nagpapataas ng recall ngunit nagpapalaki ng bilang ng alerto.
Context-Aware na Scoring
Ang solusyon ay context-aware na confidence scoring. Sa halip na mag-score batay sa pattern match lamang, pinapalakas ng sistema ang kumpiyansa kapag lumabas ang mga context word malapit sa match. Binababa rin nito ang score kapag wala ang konteksto.
Para sa TFN detection: ang mga salita tulad ng "tax file number," "TFN," o "Australian tax" malapit sa isang numero ay nagpapalakas ng score nito. Ang isang numero na pumasa sa checksum ngunit walang malapit na context word ay nag-score nang mas mababa sa review threshold. Pinipigilan ang spurious na alerto.
Para sa cross-language na ingay: ang mga uri ng entity na nakatali sa mga tiyak na bansa ay maaaring i-scope sa mga dokumento sa katugmang wika. Ang isang TFN detector na naka-scope sa English at Australian-English na teksto ay nag-aalis ng ingay. Ang pagpapatakbo nito sa German na nilalaman nang walang scoping ang pinagmulan ng problema.
Ang ikatlong layer sa isang hybrid na sistema ay isang transformer model. Binabasa nito ang buong context window sa paligid ng bawat kandidato. Kinukumpara nito ang "John Smith, Patient ID 12345" mula sa isang product code na naaayon sa isang pattern ng pangalan. Nireresulba ng konteksto ang kawalang-katiyakan na hindi kayang gawin ng regex at checksum.
Tingnan kung paano hinahawakan ng three-tier detection engine ang precision sa malaking sukat. Saklaw ng multilingual PII detection guide kung paano nakakaapekto ang cross-language na ingay sa GDPR compliance.
Mga Praktikal na Hakbang
Bago mag-deploy ng anumang PII tool, sukatin ang precision nito — hindi lang recall.
Patakbuhin ang tool sa isang set ng dokumento na may kilalang PII at kilalang hindi-PII. Bilangin ang mga alerto sa parehong grupo. Kalkulahin ang true_positives / (true_positives + false_positives). Ang numerong ito ay nagpapakita ng burden ng review bago ka mag-commit sa isang rollout.
Para sa mga koponan na gumagamit na ng Presidio, ang pagsusuri ng score distribution ay isang mabilis na landas. I-export ang isang sample ng mga pagtuklas na may kanilang mga confidence score. Bilangin kung ilan ang nag-score nang mas mababa sa 0.6, 0.7, at 0.8. Ang isang malaking bahagi ng mga high-score na alerto sa malinis na teksto ay nagpapahiwatig ng context gap, hindi ng problema sa threshold. Ang security compliance overview ay nagpapaliwanag kung paano ito idodokumento sa isang DPIA.
Mga Pinagkukunan
- Microsoft Presidio GitHub Discussion #1071: sistematikong mga false positive.
- Microsoft Presidio GitHub Issue #999: Mga pattern ng false positive sa wikang German.
- Alvaro et al. (2024): Precision ng Presidio sa mga mixed-language na enterprise dataset.
- Pagsusuri ng DICOM score threshold — Microsoft Presidio community.