By · Last updated 2026-06-05

Rudi kwa BlogKitaalamu

Tatizo la Usahihi wa 22.7% la Presidio

Kipimo cha mwaka 2024 kiligundua kwamba kitambuzi cha majina ya watu cha Presidio kinafikia usahihi wa 22.7% katika hati za biashara -- kumaanisha 77.3% ya ugunduzi ni matokeo ya uongo.

June 5, 20267 dakika kusoma
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Tatizo la Usahihi wa 22.7% la Presidio

Matokeo ya uongo katika ugunduzi wa PII husababisha uharibifu wa kweli. Wakati 77.3% ya kile ambacho chombo chako kinachoweka alama kama "majina ya watu" si majina halisi, haulindi faragha. Unaharibu data.

Kipimo cha mwaka 2024 kilipima muundo wa NER chaguo-msingi wa Microsoft Presidio kwenye hati za biashara. Jaribio lilijumuisha ripoti za fedha, barua za wateja, hati za bidhaa, na tiketi za usaidizi. Matokeo: usahihi wa 22.7% kwa ugunduzi wa majina.

Nambari hiyo inashangaza. Kwa kila vipengele 100 vilivyowekwa alama, 23 ni majina halisi ya watu binafsi. Vingine 77 ni matokeo ya uongo -- lebo za bidhaa, istilahi za chapa, au lebo za mji.

Tatu kati ya nne ya ugunduzi ni mbaya. Hiyo si suala dogo la usanidi. Hiyo ni chombo kilichovunjika kwa kazi ya hati za biashara.

Kwa Nini Hii Hutokea

Presidio hutumia muundo wa en_core_web_lg wa spaCy chaguo-msingi. Muundo huu ulijifunza kutoka kwa maandishi ya habari. Katika habari, nomino nyingi maalum ni watu halisi au maeneo.

Hati za biashara ni tofauti.

Lebo za bidhaa zinazofanana na majina ya watu binafsi. "Rekodi za usafirishaji wa Apple iPhone 15 Pro" inawekwa alama kama PERSON. Vivyo hivyo "Samsung Galaxy Tab" na "utekelezaji wa Cisco Meraki."

Istilahi za kampuni zenye sehemu zinazofanana na majina. Katika "matokeo ya Johnson Controls," neno "Johnson" linawekwa alama kama PERSON. "Mkoba wa Goldman Sachs" husababisha kosa hilo hilo.

Lebo za eneo zinazosababisha ugunduzi wa mtu. "Mradi wa Victoria Harbour" huweka alama "Victoria" kama PERSON. "Kitovu cha Santiago" huweka alama "Santiago" vivyo hivyo.

Muundo haukuwa na muktadha wa kutofautisha "Apple" (kampuni) kutoka kwa "Apple Smith" (mtu). Pengo hilo ndilo chanzo cha matokeo mengi ya uongo. Maandishi ya habari yalimfundisha kutibu nomino maalum kama watu au maeneo. Maandishi ya biashara huvunja sheria hiyo kila wakati.

Athari kwa Chini ya Mkondo

Kampuni ya data ilitumia Presidio kusafisha tafiti za wateja kabla ya kuzishiriki. Ukaguzi uligundua matatizo manne. Kwanza, 40% ya tafiti zilikuwa na lebo za bidhaa zilizoondolewa vibaya. Pili, lebo za mji ziliondolewa kutoka kila jibu. Tatu, kutajwa kwa chapa kulifutwa kutoka kwenye seti ya uchambuzi. Nne, hisia kuhusu bidhaa maalum hazikuweza kusomwa.

Timu ya uchambuzi ilipokea maandishi yaliyofutwa pamoja na marejeo yote ya bidhaa yaliyoondolewa. Tafiti awali iliitaja iPhone Pro na chaja ya Apple. Maana hiyo ilikwenda.

Kampuni haikulinda faragha vizuri zaidi. Ilikuwa ikiharibu data bila kupata utiifu. Presidio ilibadilishwa baada ya ukaguzi.

Angalia muhtasari wetu wa utiifu kwa jinsi ubora wa ugunduzi unavyoathiri hali yako ya udhibiti.

Mbinu Bora: Ugunduzi wa Mseto

Tatizo si la kipekee kwa Presidio. NER ya kiwango cha ishara bila muktadha itakuwa na suala hili daima. Suluhisho ni ugunduzi unaojua muktadha.

Kwa nini transformer husaidia: Muundo kama XLM-RoBERTa husoma sentensi nzima. "Apple ilitangaza mapato yake" → Apple ni kampuni. "Apple Smith alijiunga na timu" → Apple ni jina la kwanza. Muktadha unakuambia ni yupi.

Hii inaboresha usahihi huku ukikumbatia ukumbushi wa juu. Angalia ulinganisho hapa chini.

MbinuUsahihiUkumbushi
NER chaguo-msingi ya Presidio22.7%~85%
Regex peke yake~95%~40%
Mseto (Regex + NLP + Transformer)~85%~80%

Mbinu ya mseto inafikia usahihi wa 85%. Hiyo kunamaanisha kiwango cha matokeo ya uongo cha 15%. Bora sana kuliko 77.3%. Kwa hati za biashara, pengo hili linaathiri.

Mrundikano wa mseto una hatua nne:

  1. Safu ya Regex: Inapata vitambulisho vilivyoundwa -- barua pepe, nambari za simu, SSN, IBAN. Miundo ni imara, kwa hivyo matokeo ya uongo ni nadra. Hii inafanya kwanza.

  2. Safu ya NLP (spaCy): NER ya kawaida kwa watu, makampuni, na maeneo. Ukumbushi wa juu, usahihi mdogo.

  3. Safu ya Transformer (XLM-RoBERTa): Inapanga upya kila matokeo ya NLP ukitumia muktadha kamili wa sentensi. "Apple" katika muktadha wa bidhaa hupoteza alama yake ya kipengele. "John" katika maandishi ya malalamiko huipata.

  4. Kizingiti cha uaminifu: Matokeo yaliyo juu ya alama iliyowekwa peke yake yanaingia kwenye pato. Ongeza kizingiti kwa matumizi ya uchambuzi. Punguza kwa utambuzi wa HIPAA.

Matokeo Baada ya Kubadilisha

Kampuni ya uchambuzi ilibadilisha hadi ugunduzi wa mseto. Faida zilikuwa wazi. Matokeo ya uongo ya lebo za bidhaa yalishuka kutoka 40% hadi 3%. Matokeo ya uongo ya lebo za mji yalishuka karibu na sifuri. Ukumbushi wa utambulisho halisi ulibaki ~82%, chini kidogo kutoka 85%, lakini usahihi uliboreshwa sana.

Tafiti zikawa zinaweza kutumika tena. "iPhone," "Apple," "Samsung," na "Chicago" zilibaki kwenye maandishi. Majina ya wateja katika muktadha wa malalamiko yaliondolewa kwa usahihi.

Ugunduzi wa mseto huchukua hesabu zaidi. Kwa kazi kubwa, nyakati za uendeshaji ni ndefu kidogo. Kwa matumizi mengi ya biashara, faida ya usahihi inastahili. Kampuni iliweza kuendesha uchambuzi tena. Hiyo ndiyo lengo lote la data ya tafiti.

Soma kuhusu mbinu yetu ya ugunduzi katika muhtasari wa usalama.

Wakati Viwango vya Juu vya Matokeo ya Uongo Vinakubalika

Baadhi ya hali zinapendelea ukumbushi juu ya usahihi.

HIPAA Safe Harbor: Kukosa kweli kunahusika ni ukiukaji. Kiwango cha matokeo ya uongo cha 10% ni sawa ikiwa PHI halisi haifikaatikwahi. Kuondoa kupita kiasi ni salama zaidi kuliko kuondoa kwa pungufu.

Ukaguzi wa kisheria: Kukosa mawasiliano yenye haki kunaweza kuacha haki. Matokeo ya uongo yanahitaji ukaguzi lakini hayazalishi dhima.

Uchambuzi wa biashara: Kuondoa kupita kiasi huvunja data bila faida ya utiifu. Usahihi unaathiri zaidi hapa. Tumia mbinu ya mseto yenye kizingiti cha juu cha uaminifu. Hii huhifadhi lebo za chapa na istilahi za mji kwenye pato. Majina ya watu halisi peke yake yanaondolewa.

Usawa sahihi unategemea matumizi yako. Zana zinazokuruhusu kuweka kizingiti hukupa udhibiti. Hakuna chaguo-msingi moja linalofanya kazi kwa kila muktadha.

Angalia Maswali Yanayoulizwa Mara kwa Mara kwa maswali ya kawaida kuhusu vizingiti na hali za ugunduzi.

Hitimisho

Kiwango cha usahihi wa 22.7% kunamaanisha ugunduzi 3 kati ya 4 ni mbaya. Kwa hati za biashara, hiyo hufanya pato lisiweze kutumika kwa uchambuzi. Pia hutoa imani ya uongo kuhusu utiifu.

Ugunduzi wa mseto hutatua hili. Unajumuisha regex, NLP, na alama za transformer. Data inabaki inayofaa baada ya kutowekwa. Majina halisi ya watu yanaondolewa. Lebo za chapa, istilahi za mji, na vitambulisho vya bidhaa vinabaki.

Ukiondoka Presidio kwa sababu ya masuala ya matokeo ya uongo, hii ndiyo njia ya mbele. Si usanidi mpya wa muundo huo huo. Usanifu tofauti uliojengwa kwa muktadha wa hati za biashara.

Vyanzo

Kipimo cha PII cha Priva 2024: Tathmini ya Usahihi wa Presidio. IMEHAKIKISHWA-NJE.

Microsoft Presidio: Vipengele Vinavyoungwa mkono na Usanifu wa Muundo. IMEHAKIKISHWA-NJE.

spaCy: Data ya Mafunzo ya en_core_web_lg na Mipaka. IMEHAKIKISHWA-NJE.

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.