anonym.legal

By · Last updated 2026-06-05

Վերադառնալ բլոգինՏեխնիկական

Presidio-ի 22.7%-անոց ճշգրտության խնդիրը

2024 թ. թեստն ի ցույց դրեց, որ Presidio-ի անձնանունների ճանաչողն ու բիզնես փաստաթղթերում հասնում է 22.7% ճշգրտության, ինչը նշանակում է, որ հայտնաբերումների 77.3%-ն ու կեղծ դրական են:

June 5, 20267 րոպե կարդալ
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio-ի 22.7%-անոց ճշգրտության խնդիրը

PII հայտնաբերման մեջ կեղծ դրականները (false positives) իրական վնաս են հասցնում: Երբ ձեր գործիքի «անձնանուն» պիտակ կրող հայտնաբերումների 77.3%-ն ու իրական անուններ չեն, ապա դուք գաղտնիությունն ու չեք պաշտպանում: Դուք տվյալները ոչնչացնում եք:

2024 թ. թեստն ու Microsoft Presidio-ի ստանդարտ NER մոդելը փորձարկեց բիզնես փաստաթղթերի վրա: Փորձը ներառում էր ֆինանսական հաշվետվություններ, հաճախորդային նամակներ, ապրանքային փաստաթղթեր և աջակցության հայտեր: Արդյունքը. 22.7% ճշգրտություն անուններ հայտնաբերելիս:

Այդ ցուցանիշն ու աչք է ծակում: Ամեն 100 նշված կետից 23-ն ու իրական անձնանուններ են: Մնացած 77-ն ու կեղծ դրականներ են — ապրանքի պիտակներ, ապրանքանիշային տերմիններ կամ քաղաքի անուններ:

Չորսից երեք հայտնաբերումն ու սխալ է: Սա բիզնես փաստաթղթերի ոլորտում ոչ թե անցանկալի կարգավորման խնդիր է, այլ փչացած գործիք:

Ինչու է դա տեղի ունենում

Presidio-ն ստandartnorên orënkum ê spaçi-i en_core_web_lg modelê: Ayd modelê sovorel ê norutyunneri teqstic: Norutyunneri meç šat hampatasxan goyacannere isgakan mardik en kam texer:

Biznesayin pastatxtere taربingdir en:

Aryanayyinnere, vornq nmanocutyun uni isgakan anunnerit hamar: «Apple iPhone 15 Pro-i bericumyayin arkivnere» nšanakvum ê orpes PERSON: Xumbagritem ê «Samsung Galaxy Tab» ev «Cisco Meraki bacvutyun»-n ev nuynabekov:

Anunankic mecere unecocox korporativ terminnere: «Johnson Controls-i arjunqneri» meç «Johnson» barrê nšanakvcum ê orpes PERSON: «Goldman Sachs portfolio» nuynabekov xaxtnakutyun ê ar:

Textayin vayrerê, vornq mardatu hantaviç arjanakuchutyun en arjanakucnum: «Victoria Harbour project» «Victoria»-n nšanaknum ê PERSON: «Santiago hub»-ê «Santiago»-n nuynabekov:

Modelê bazavumov mardku «Apple» (ènkerutyun) ev «Apple Smith»-i (mard) mijèv kontekstê chê tonum ararkutyunê: Ayd patcaran karogh ê mardakat kexc drakanneri aseli mecamasnan prichinê: Norutyunneri teqstê nran sovorécrel ê innovaciyaneri ayanknere orpes mardik kam texer nayel: Biznesayin teqstê anambogj xaxtnakutyun ê uzum bacel:

Arajnordutyan handêpumê

Tvyalneri mê ënkerutyunê Presidio gorçel ê harcaštori veralucanutyan hamar nakkin kaxkèl nranc: Verlucanê corer karerê baceahaytnec: Arajanç, 40% varkakanarkneri artyanayyinnê ëndlaynum ê štvac: Erkrord, qaghakanneri anunnere amboghj ê hyurmexnerum ê kacanuc: Yererrord, atakarinneri anunnere yerazhèshtyacats ê vikayin havaqacuyin: Corord, atakarinneri ankein barakakanatutyan masin banayin tvealneri veralucanê heçkarar ë: Vercnahidek anunnerê, vornq nšanavel en iPhone Pro ev Apple charger-ê: Ayd ishkhanakutyanê cham gone:

Àynkerutyunê gaxtniqutyan aveli lav pashttapanumê chê irakanaçnum: Ayn tvalyalnerê kazyatrel ê aranc baran hamapatasxanakan: Presidio-n êndlaynum ê verlucanuts haçord: Tesnec mer hamapatasxanakan kazmakerpakanutyunê, vorpèszi hаytnabеrutyan oraky ančnutyunê andzinuma kazmaviçutyan vra:

Aveli lav moteçutyun. hibridayin hаytnabеrutyun

Xndirnê benzinaynayin ê Presidio-yi: Token-makakarkim NER-ê aranc konteksty aybpisi xndir misht kunic ê: Patcann ê kontekstê heraxuyç hаytnabеrutyunê:

Inču transformernere ognum en: XLM-RoBERTa nman modelê kerdaguym é ambogj bazumê: «Apple announced its earnings» → Apple ê ënkerutyun: «Apple Smith joined the team» → Apple-ê anun: Kontekstê uzum ê, te orn ê:

Ays barcracnum ê ëntardzakutyunê paxpanel en recall-ê barcr: Tesnec hamematutyan est:

MorçutyunËntardzakutyunRecall
Presidio ëndlaynvorên NER22.7%~85%
Avein regex~95%~40%
Hybrid (Regex + NLP + Transformer)~85%~80%

Hibridayin morçutyunê hascnum ê 85% ëntardzakutyun: Ayn nšanakum ê 15% kexc drakanneri mec: Sarselk aveli lav ê 77.3%-ic: Biznesayin pastatxtneri hamar, ayd parbakanutyan ê karcavan:

Hibridayin stack-ê corer karcic ê:

  1. Regex shtê: gnum ê kazmavorakvac ID-ner — electranaposte, telefoni hamare, SSN-ner, IBAN-ner: Chapat'nerê kaysun en, ayst kexc drakannere xandarakutyunayin en: Ayn arajin ê:

  2. NLP shtê (spaCy): Standard NER mardkanci, ënkerutyunneric, texeric: Barcr recall, yok ëntardzakutyun:

  3. Transformer shtê (XLM-RoBERTa): Verašarjnum ê amen NLP arjunq ambogj bazmê kontekstov: «Apple»-ê aryanayyini kontekstum kayacnum ê bazmayin arjanakê: «John»-ê banarakhosutyan meç archanakutyun ê stanum:

  4. Vstarmanutyan šemê: Miaydn kargiç šemic barcr nšanumnere andznumy en anc yrtardreli: Barcracrek šemê analytikai mayramaser nstaneri hamar: Ijecrek HIPAA de-identificaciai hamar:

Arjunqnere ancman haçord

Ànalytikayin ënkerutyunê ancel ê hybridayin hаytnabеrutyunan: Šerrumnerê aylutyun en: Aryanayyini kexc drakannere kampumayin en 40%-ic minchev 3%: Qaghakani kexc drakannere kampumayin en gredzy zitim: Iskakan inqnuytê recall-ê mnacel ê ~82%, ançanch azatvet 85%-ic, bayç ëntardzakutyunê kaycanakel ê:

Varkakanarknere veradata duarqayadireli darchan: «iPhone», «Apple», «Samsung» ev «Chicago» -ê mnacel en teqstum: Harcavorutyunneri kontekstum haçakhordumnere chën paxel en:

Hibridayin hаytnabеrutyunê aveli šat arjevujchan ê patrasxutyunum: Mec aşxatayneri hamar gorcneri jamanaknere məcasel ê: Biznesayin baycarinmeri šat dêpqerum, ëntardzakutyunan šerrumê artizani ê: Ënkerutyunê karogh ê vercnadarnan analitikan kayanacel: Se ê hamar ê yeghel varkakanarkneri tvalyalnerin:

Karcik ajanè, mer haytnabеrutyunan mocutyunan masin [`anvtangutyan hamapatasxanutyan kazmakerpakanutyunê (/security-compliance):

Erb kexc drakanneri barcr mec mecajnutyunê ëntarec ê

Orosh dêpqerum vercnaberutyan akanjutyunê nututyunan akanjutyun unic ê:

HIPAA Safe Harbor: Iskakan drakanneri baci telê xaxtutyun ê: 10% kexc drakanneri mec kanon ê, yêtê iskakan PHI-ê yerbe chê bac gtnel: Goremanaçman aveli anvtang ê karcutyunê:

Iravakan veralucanut'yun: Baci vtangavoracvac konic karogh ê vtang tacrel: Kexc drakannere veralucanut'yun en paxanjatçum, bayç pataxabanutyan karogh chên stexcel:

Biznesayin analitika: Karcutyunê tvalyalnere kazyatrum ê aranc baran hamapatasxanakan šerrumi: Ëntardzakutyunê aystex aveli karcavan ê: Gorçec hybridayin morçutyun barcr vstarmanutyan šemov: Ayd paxum ê atakar anatunnere ev qaghakanneri terminnere arjunqum: Aijyunn isgakan mardkanci anunnere en heçvum:

Oghtakar heterakšakanutyan est ê xndirid vra: Gorçiknere, vornq theque dzez šemi karavorumê, dzez varavarn en uzum: Amen ëndlayin ёncdutyun kanon chi:

Tesnec mer FAQ-ë šemeri ev hаytnabеrutyunan ejanakneri masin harcatakin harcaneri hamar:

Avart

22.7% ëntardzakutyunan mec nšanakum ê, vor 4-ic 3 hаytnabеrutyun sxal ê: Biznesayin pastatxtneri hamar, ayn arjunqn ê anvtoghakan analytikayi hamar: Aylnabekov šexc vstarmanutyan masin apahov ê:

Hibridayin hаytnabеrutyunê ayd brnakel ê: Ayn xmbagutyun ê regex, NLP ev transformer gnahatakan: Tvalyalnere paregam en mnacel anonymizatsiayits haçord: Iskakan mardkanci anunnere heçvum en: Atakarinneri anunnere, qaghakanneri terminnere ev aryanayyini nuynakanacumnere mnacel en:

Yêtê Presidio-ic êndlaynum ênkac eq kexc drakanneri karchic, sa ê avancê dranut'yan urçê: Oc te nuyneçanèn modelê nor kazmaviçutyun: Aylar caragrut'yun, vorn karcutyunyam ê biznesayin pastatxtneri hamar:

Šarunkutyan ašxarhagneri

Priva PII Benchmark 2024. Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio. Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy. en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Պատրաստ եք պաշտպանելու ձեր տվյալները?

Սկսեք PII անանոնիմացնել 285+ կազմակերպության տեսակներով 48 լեզուներով:

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.