By · Last updated 2026-04-03

Bumalik sa BlogTeknikal

Ang Buwis ng False Positive sa mga PII Tool

Idinodokumento ng GitHub issue #1071 ng Presidio ang sistematikong mga false positive. Natuklasan ng isang pag-aaral noong 2024 na 22.7% ang precision sa mga mixed-language na enterprise dataset.

April 3, 20268 min basahin
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Ang Buwis ng False Positive sa mga Tool ng PII Detection

Na-update para sa 2026

Karamihan sa mga PII tool ay sinusuri batay sa recall. Sinusukat ng recall kung anong bahagi ng tunay na PII ang natuklasan ng tool. Ngunit mahalaga rin ang precision. Sinusukat ng precision kung anong bahagi ng mga alerto ng tool ang tunay na PII.

Mahal ang mababang precision. Ang isang sistema na may 95% recall at 22.7% precision ay humahanap ng karamihan sa PII. Ngunit para sa bawat tunay na entity ng PII na nifi-flag nito, nagdadala rin ito ng 3.4 na maling alerto. Sa isang dataset na may 10,000 tunay na entity ng PII, ang sistemang iyon ay nagpapalabas ng humigit-kumulang 44,000 na alerto. Mga 34,000 sa kanila ay mali. Bawat isa ay nagkakahalaga ng oras para suriin o nagiging sanhi ng labis na redaction.

Ito ang buwis ng false positive. Ito ang overhead na binabayaran ng anumang koponan kapag nagpapatakbo ng high-recall, low-precision na PII system sa malaking sukat. Ang direktang gastos ay oras ng reviewer. Ang hindi direktang gastos ay mas masahol pa: tinatago ng mga labis na na-redact na dokumento ang kapaki-pakinabang na data, nagpapabagal ng trabaho, at ginagawang hindi pinagkakatiwalaan ang tool.

Ano ang Ipinapakita ng Presidio Issue #1071

Ang Microsoft Presidio GitHub discussion #1071 (2024) ay nag-rerekord ng isang tiyak na pattern. Gumagamit ang mga TFN (Tax File Number) at PCI recognizer ng checksum validation. Ang mga numero na pumasa sa checksum ay nakatanggap ng score na 1.0 — pinakamataas na kumpiyansa. Hindi kailangan ang konteksto ng PII.

Ang ugat na sanhi: tumatakbo ang pagsusuri ng context word pagkatapos ng hakbang ng checksum, hindi bago. Ang isang numero na pumasa sa checksum ay nakakakuha ng pinakamataas na score anuman ang nakapaligid na teksto. Sa mga financial spreadsheet, scientific dataset, o log file, binabaha nito ang output ng mga maling alerto. Hindi kayang ayusin ito ng score threshold filtering. Nasa pinakamataas na antas na ang mga score.

Lumabas ang pangalawang pattern sa Presidio issue #999. Nasisira ang segmentasyon ng salita ng German para sa mga compound na pangngalan. Ang mga salita tulad ng Bundesbehörde (pederal na awtoridad) ay maaaring hatiin nang hindi tama at ma-tag bilang mga personal na pangalan. Nagdaragdag ito ng ingay sa anumang dokumento sa wikang German.

Ang Problema sa 22.7% na Precision

Sinubukan ni Alvaro et al. (2024) ang Presidio sa mga mixed-language na enterprise dataset. Natuklasan nila ang 22.7% precision. Sa mga tunay na dokumento, wala pang isa sa apat na alerto ng Presidio ang isang tunay na entity ng PII. Naaayon ito sa iniuulat ng mga practitioner. Ang isang tool na naka-tune para sa recall lamang ay nagpo-produce ng masyadong maraming ingay para sa paggamit sa produksyon.

Isang pag-aaral ng DICOM noong 2024 ang nagpakita na ang pagtataas ng score_threshold sa 0.7 ay nag-iwan pa rin ng mga maling alerto sa 38 sa 39 medikal na imahe. Ang isang threshold na nag-aalis ng ingay sa isang uri ng dokumento ay lumilikha ng mga napalampas na pagtuklas sa isa pa.

Ito ay hindi problema lamang ng Presidio. Anumang nakatakdang threshold ay nagpipilit ng trade-off. Ang mataas na threshold ay nagbabawas ng ingay ngunit nagpapataas ng mga miss. Ang mababang threshold ay nagpapataas ng recall ngunit nagpapalaki ng bilang ng alerto.

Context-Aware na Scoring

Ang solusyon ay context-aware na confidence scoring. Sa halip na mag-score batay sa pattern match lamang, pinapalakas ng sistema ang kumpiyansa kapag lumabas ang mga context word malapit sa match. Binababa rin nito ang score kapag wala ang konteksto.

Para sa TFN detection: ang mga salita tulad ng "tax file number," "TFN," o "Australian tax" malapit sa isang numero ay nagpapalakas ng score nito. Ang isang numero na pumasa sa checksum ngunit walang malapit na context word ay nag-score nang mas mababa sa review threshold. Pinipigilan ang spurious na alerto.

Para sa cross-language na ingay: ang mga uri ng entity na nakatali sa mga tiyak na bansa ay maaaring i-scope sa mga dokumento sa katugmang wika. Ang isang TFN detector na naka-scope sa English at Australian-English na teksto ay nag-aalis ng ingay. Ang pagpapatakbo nito sa German na nilalaman nang walang scoping ang pinagmulan ng problema.

Ang ikatlong layer sa isang hybrid na sistema ay isang transformer model. Binabasa nito ang buong context window sa paligid ng bawat kandidato. Kinukumpara nito ang "John Smith, Patient ID 12345" mula sa isang product code na naaayon sa isang pattern ng pangalan. Nireresulba ng konteksto ang kawalang-katiyakan na hindi kayang gawin ng regex at checksum.

Tingnan kung paano hinahawakan ng three-tier detection engine ang precision sa malaking sukat. Saklaw ng multilingual PII detection guide kung paano nakakaapekto ang cross-language na ingay sa GDPR compliance.

Mga Praktikal na Hakbang

Bago mag-deploy ng anumang PII tool, sukatin ang precision nito — hindi lang recall.

Patakbuhin ang tool sa isang set ng dokumento na may kilalang PII at kilalang hindi-PII. Bilangin ang mga alerto sa parehong grupo. Kalkulahin ang true_positives / (true_positives + false_positives). Ang numerong ito ay nagpapakita ng burden ng review bago ka mag-commit sa isang rollout.

Para sa mga koponan na gumagamit na ng Presidio, ang pagsusuri ng score distribution ay isang mabilis na landas. I-export ang isang sample ng mga pagtuklas na may kanilang mga confidence score. Bilangin kung ilan ang nag-score nang mas mababa sa 0.6, 0.7, at 0.8. Ang isang malaking bahagi ng mga high-score na alerto sa malinis na teksto ay nagpapahiwatig ng context gap, hindi ng problema sa threshold. Ang security compliance overview ay nagpapaliwanag kung paano ito idodokumento sa isang DPIA.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.