By · Last updated 2026-06-05

Bumalik sa BlogTeknikal

Ang 22.7% na Problema sa Precision ng Presidio

Natuklasan ng isang benchmark noong 2024 na ang person name recognizer ng Presidio ay nakakamit ng 22.7% na precision sa mga business document — ibig sabihin, 77.3% ng mga deteksyon ay false positive.

June 5, 20267 min basahin
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Ang 22.7% na Problema sa Precision ng Presidio

Ang mga false positive sa PII detection ay nagdudulot ng tunay na pinsala. Kapag ang 77.3% ng inilalagay ng iyong tool na flag bilang "mga pangalan ng tao" ay hindi tunay na mga pangalan, hindi ka nagpoprotekta ng privacy. Sinisira mo ang data.

Isang benchmark noong 2024 ang sumubok sa default na NER model ng Microsoft Presidio sa mga business document. Sinasaklaw ng pagsubok ang mga financial report, sulat sa customer, mga dokumento ng produkto, at mga support ticket. Ang resulta: 22.7% na precision para sa name detection.

Ang numerong iyon ay kapansin-pansin. Para sa bawat 100 item na na-flag, 23 ang tunay na indibidwal na pangalan. Ang iba pang 77 ay mga false positive — mga label ng produkto, mga term ng brand, o mga label ng lungsod.

Tatlo sa apat na deteksyon ay mali. Hindi ito isang menor na isyu sa calibration. Ito ay isang sirang tool para sa trabaho sa business document.

Bakit Nangyayari Ito

Gumagamit ang Presidio ng en_core_web_lg model ng spaCy bilang default. Ang model na ito ay natuto mula sa teksto ng balita. Sa balita, karamihan sa mga tamang pangalan ay tunay na mga tao o lugar.

Ang mga business document ay iba.

Mga label ng produkto na mukhang indibidwal na pangalan. Ang "Apple iPhone 15 Pro shipment records" ay na-flag bilang PERSON. Gayundin ang "Samsung Galaxy Tab" at "Cisco Meraki deployment."

Mga term ng kumpanya na may bahaging mukhang pangalan. Sa "Johnson Controls results," ang salitang "Johnson" ay na-flag bilang PERSON. Ang "Goldman Sachs portfolio" ay nagti-trigger ng parehong error.

Mga label ng lokasyon na nagti-trigger ng person detection. Ang "Victoria Harbour project" ay naglalagay ng flag sa "Victoria" bilang PERSON. Ang "Santiago hub" ay naglalagay ng flag sa "Santiago" sa parehong paraan.

Walang konteksto ang model para mapaghiwalaay ang "Apple" (kumpanya) mula sa "Apple Smith" (isang tao). Ang agwat na iyon ang ugat ng karamihan sa mga false positive. Tinuruan siya ng teksto ng balita na tratuhin ang mga tamang pangalan bilang mga tao o lugar. Ang business text ay lumalabag sa patakarang iyon sa lahat ng oras.

Ang Downstream na Epekto

Gumamit ang isang data firm ng Presidio para linisin ang mga survey ng customer bago ibahagi ang mga ito. Natuklasan ng isang audit ang apat na problema. Una, 40% ng mga survey ay may mga label ng produkto na mali ang pagtatanggal. Pangalawa, ang mga label ng lungsod ay inalis mula sa bawat tugon. Pangatlo, ang mga pagbanggit ng brand ay inalis mula sa set ng pagsusuri. Pang-apat, ang sentiment tungkol sa mga partikular na produkto ay hindi mabasahan.

Nakatanggap ang koponan ng pagsusuri ng redacted na teksto na inalis ang lahat ng mga sanggunian sa produkto. Ang survey ay orihinal na nagbanggit ng iPhone Pro at ng Apple charger. Nawala ang kahulugang iyon.

Hindi mas pinoprotektahan ng firm ang privacy. Sinisira nito ang data nang walang nakukuhang compliance. Pinalitan ang Presidio pagkatapos ng audit.

Tingnan ang aming compliance overview para sa kung paano nakakaapekto ang kalidad ng deteksyon sa iyong katayuan sa regulasyon.

Isang Mas Magandang Paraan: Hybrid Detection

Ang problema ay hindi natatangi sa Presidio. Ang token-level NER na walang konteksto ay palaging magkakaroon ng isyung ito. Ang solusyon ay context-aware detection.

Bakit nakakatulong ang mga transformer: Isang model tulad ng XLM-RoBERTa ang nagbabasa ng buong pangungusap. "Apple announced its earnings" → Apple ay isang kumpanya. "Apple Smith joined the team" → Apple ay isang pangalan. Sinasabi sa iyo ng konteksto kung alin ang alin.

Pinapabuti nito ang precision habang pinapanatiling mataas ang recall. Tingnan ang paghahambing sa ibaba.

ParaanPrecisionRecall
Presidio default NER22.7%~85%
Regex-only~95%~40%
Hybrid (Regex + NLP + Transformer)~85%~80%

Naaabot ng hybrid approach ang 85% na precision. Nangangahulugan iyon ng 15% na false positive rate. Mas mabuti kaysa 77.3%. Para sa mga business document, mahalaga ang agwat na ito.

Ang hybrid stack ay may apat na hakbang:

  1. Regex layer: Naghahanap ng mga structured ID — mga email, numero ng telepono, SSN, IBAN. Ang mga format ay naayos na, kaya't bihirang mag-false positive. Ito ay unang tumatakbo.

  2. NLP layer (spaCy): Standard NER para sa mga tao, kumpanya, at lugar. Mataas na recall, mas mababang precision.

  3. Transformer layer (XLM-RoBERTa): Binibigyan muli ng puntos ang bawat resulta ng NLP gamit ang buong konteksto ng pangungusap. Ang "Apple" sa konteksto ng produkto ay nawawalan ng entity score. Ang "John" sa teksto ng reklamo ay nakakakuha ng mas mataas.

  4. Confidence threshold: Ang mga hit na nasa itaas lamang ng isang nakatakdang marka ang pumupunta sa output. Itaas ang threshold para sa mga analytics use case. Ibaba ito para sa HIPAA de-identification.

Mga Resulta Pagkatapos Lumipat

Lumipat ang analytics firm sa hybrid detection. Malinaw ang mga nadapatang benepisyo. Ang mga false positive ng label ng produkto ay bumaba mula 40% hanggang 3%. Ang mga false positive ng label ng lungsod ay halos nawala. Ang tunay na identity recall ay nanatili sa ~82%, bahagyang bumaba mula 85%, ngunit ang precision ay malaki ang pagbuti.

Naging magamit muli ang mga survey. Ang "iPhone," "Apple," "Samsung," at "Chicago" ay nanatili sa teksto. Ang mga pangalan ng customer sa mga konteksto ng reklamo ay tamang natanggal.

Nangangailangan ng mas maraming compute ang hybrid detection. Para sa malalaking trabaho, medyo mas matagal ang mga oras ng pagtakbo. Para sa karamihan ng mga business use case, sulit ang pagkamit ng katumpakan. Maaari nang muling magsagawa ng pagsusuri ang firm. Iyon ang buong punto ng survey data.

Basahin ang tungkol sa aming paraan ng deteksyon sa security overview.

Kailan Katanggap-tanggap ang Mataas na Rate ng False Positive

May ilang kaso na pabor ang recall kaysa precision.

HIPAA Safe Harbor: Ang pagkawala ng isang tunay na positibo ay isang paglabag. Ang 10% na false positive rate ay maayos kung ang tunay na PHI ay hindi kailanman napapabayaan. Ang over-removal ay mas ligtas kaysa under-removal.

Pagsusuri ng legal: Ang pagkawala ng isang privileged na contact ay maaaring mag-waive ng privilege. Ang mga false positive ay nangangailangan ng pagsusuri ngunit hindi naglilikha ng pananagutan.

Business analytics: Ang over-removal ay sumisira ng data nang walang pakinabang sa compliance. Mas mahalaga dito ang precision. Gumamit ng hybrid approach na may mataas na confidence threshold. Pinapanatili nito ang mga label ng brand at mga term ng lungsod sa output. Tanging ang mga tunay na pangalan ng tao ang natatanggal.

Ang tamang balanse ay nakasalalay sa iyong use case. Ang mga tool na nagpapahintulot sa iyo na itakda ang threshold ay nagbibigay sa iyo ng kontrol. Walang single default na gumagana para sa bawat konteksto.

Tingnan ang aming FAQ para sa mga karaniwang tanong tungkol sa mga threshold at detection mode.

Konklusyon

Ang 22.7% na precision rate ay nangangahulugang 3 sa 4 na deteksyon ay mali. Para sa mga business document, ginagawa nitong hindi magamit ang output para sa pagsusuri. Nagbibigay rin ito ng maling kumpiyansa sa compliance.

Inaayos ng hybrid detection ang ito. Pinagsasama nito ang regex, NLP, at transformer scoring. Nananatiling kapaki-pakinabang ang data pagkatapos ng anonymization. Tinatanggal ang mga tunay na pangalan ng tao. Ang mga label ng brand, mga term ng lungsod, at mga identifier ng produkto ay nananatili.

Kung umalis ka sa Presidio dahil sa mga isyu sa false positive, ito ang landas na dapat sundan. Hindi isang bagong config ng parehong model. Isang ibang arkitektura na itinayo para sa mga konteksto ng business document.

Mga Pinagkukunan

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.