By · Last updated 2026-06-05

Povratak na BlogTehnički

Presidio problem preciznosti od 22,7%

Benchmark iz 2024. otkrio je da Presidioov prepoznavac osobnih imena postize 22,7% preciznosti u poslovnim dokumentima - sto znaci da je 77,3% detekcija laznih pozitivnih.

June 5, 20267 min čitanja
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidioov problem preciznosti od 22,7%

Lazni pozitivni u detekciji PII-a uzrokuju stvarnu stetu. Kada 77,3% onoga sto vas alat oznaci kao "osobna imena" nisu pravi nazivi, ne stitate privatnost. Unistavanje podataka.

Benchmark iz 2024. testirao je Microsoftov Presidio s zadanim NER modelom na poslovnim dokumentima. Test je obuhvatio financijska izvjesca, pisma klijentima, dokumentaciju o proizvodima i zahtjeve za podrsku. Rezultat: 22,7% preciznosti za detekciju imena.

Taj broj je udaran. Na svakih 100 oznacenih stavki, 23 su stvarna osobna imena. Ostalih 77 su lazni pozitivni - oznake proizvoda, nazivi brendova ili nazivi gradova.

Tri od cetiri detekcije su pogresne. To nije manja greska kalibracije. To je pokvareni alat za rad s poslovnim dokumentima.

Zasto se ovo dogadja

Presidio zadano koristi spaCyjev model en_core_web_lg. Ovaj model ucio se na novinarskim tekstovima. U vijestima, vecina vlastitih imenica su stvarni ljudi ili mjesta.

Poslovni dokumenti su drugaciji.

Oznake proizvoda koje izgledaju kao osobna imena. "Apple iPhone 15 Pro zapisi o posiljkama" oznacuje se kao OSOBA. Isto vrijedi za "Samsung Galaxy Tab" i "Cisco Meraki implementaciju."

Tvrtke s dijelovima naziva koji lice na osobna imena. U "Johnson Controls rezultati", rijec "Johnson" oznacuje se kao OSOBA. "Goldman Sachs portfelj" pokrece istu gresku.

Oznake lokacija koje aktiviraju detekciju osoba. "Victoria Harbour projekt" oznacuje "Victoria" kao OSOBU. "Santiago hub" oznacuje "Santiago" na isti nacin.

Modelu nedostaje kontekst za razlikovanje "Apple" (tvrtka) od "Apple Smith" (osoba). Taj jaz je korijen vecine laznih pozitivnih. Novinarski tekstovi naucili su ga da vjlastite imenice tretira kao ljude ili mjesta. Poslovni tekstovi tu pravilo krse sve vrijeme.

Posljedican ucinak

Jedna firma s podacima koristila je Presidio za ciscenje anketa klijenata prije dijeljenja. Revizija je otkrila cetiri problema. Prvo, 40% anketa imalo je pogresno uklonjene oznake proizvoda. Drugo, oznake gradova uklonjene su iz svakog odgovora. Trece, spominjanja brendova izbrisana su iz skupa za analizu. Cetvrto, sentimenti o specificnim proizvodima nisu se mogli citati.

Analiticki tim primio je redaktirani tekst s uklonjenim svim referencama na proizvode. Anketa je izvorno imenovala iPhone Pro i Apple punjac. Taj smisao bio je izgubljen.

Firma nije bolje stitila privatnost. Unistavala je podatke bez postizanja uskladivanja. Presidio je zamijenjen nakon revizije.

Pogledajte nas pregled uskladivanja za informacije o tome kako kvaliteta detekcije utjece na vas regulatorni polozaj.

Bolji pristup: hibridna detekcija

Problem nije jedinstven za Presidio. NER na razini tokena bez konteksta uvijek ce imati ovaj problem. Rjesenje je detekcija svjesna konteksta.

Zasto transformeri pomazu: Model poput XLM-RoBERTa cita cijelu recenicу. "Apple je objavio prihode" - Apple je tvrtka. "Apple Smith se pridruzio timu" - Apple je ime. Kontekst vam govori koji je koji.

Ovo poboljsava preciznost zadrzavajuci visok odziv. Pogledajte usporedbu u nastavku.

PristupPreciznostOdziv
Presidio zadani NER22,7%~85%
Samo regex~95%~40%
Hibrid (Regex + NLP + Transformer)~85%~80%

Hibridni pristup dostize 85% preciznosti. To znaci stopu laznih pozitivnih od 15%. Daleko bolje od 77,3%. Za poslovne dokumente, ovaj jaz je vazan.

Hibridni stog ima cetiri koraka:

  1. Regex sloj: Pronalazi strukturirane identifikatore - e-mailove, brojeve telefona, SSN-ove, IBAN-ove. Formati su fiksirani, pa su lazni pozitivni rijetki. Ovo se izvrsava prvo.

  2. NLP sloj (spaCy): Standardni NER za ljude, tvrtke i mjesta. Visok odziv, niza preciznost.

  3. Transformer sloj (XLM-RoBERTa): Ponovnim ocjenjivanjem svakog NLP rezultata koristi cijeli kontekst recenice. "Apple" u kontekstu proizvoda gubi ocjenu entiteta. "Ivan" u tekstu prituzbe dobiva je.

  4. Prag povjerenja: Samo pogodci iznad postavljene ocjene prolaze u izlaz. Povecajte prag za slucajeve analitike. Smanjite ga za de-identifikaciju prema HIPAA-i.

Rezultati nakon prelaska

Analytics firma presla je na hibridnu detekciju. Dobici su bili jasni. Lazni pozitivni za oznake proizvoda pali su s 40% na 3%. Lazni pozitivni za oznake gradova pali su blizu nule. Pravi odziv identiteta ostao je na ~82%, malo nize od 85%, ali preciznost se uvelike poboljsala.

Ankete su ponovo postale upotrebljive. "iPhone", "Apple", "Samsung" i "Chicago" ostali su u tekstu. Osobna imena u kontekstima prituzbi ispravno su uklonjena.

Hibridna detekcija trosi vise racunalnih resursa. Za velike poslove, trajanje rada je nesto dulje. Za vecinu poslovnih slucajeva, dobitak tocnosti vrijedi toga. Firma je ponovo mogla pokrenuti analizu. To je bila cijela svrha podataka ankete.

Procitajte o nasem pristupu detekciji u pregledu sigurnosti.

Kada su visoke stope laznih pozitivnih prihvatljive

Neki slucajevi favoriziraju odziv nad preciznosti.

HIPAA Safe Harbor: Propustanje istinskog pozitivnog je krsenje. Stopa laznih pozitivnih od 10% je prihvatljiva ako pravi PHI nikad nije propusten. Prekomjerno uklanjanje sigurnije je od nedovoljnog uklanjanja.

Pravni pregled: Propustanje privilegiranog kontakta moze odustati od privilegija. Lazni pozitivni trebaju pregled, ali ne stvaraju odgovornost.

Poslovna analitika: Prekomjerno uklanjanje unistava podatke bez dobitka uskladivanja. Preciznost je ovdje vaznija. Koristite hibridni pristup s visokim pragom povjerenja. Ovo zadrzava brendovske oznake i nazive gradova u izlazu. Uklanjaju se samo stvarna osobna imena.

Pravi balans ovisi o vasem slucaju koristenja. Alati koji vam dopustaju postavljanje praga daju vam kontrolu. Nijedna zadana vrijednost ne radi za svaki kontekst.

Pogledajte nas FAQ za cesta pitanja o pragovima i nacinama detekcije.

Zakljucak

Stopa preciznosti od 22,7% znaci da su 3 od 4 detekcije pogresne. Za poslovne dokumente, to cini izlaz neuporabljivim za analizu. Takodje daje laznu sigurnost u pogledu uskladivanja.

Hibridna detekcija ovo rjesava. Kombinira regex, NLP i transformer ocjenjivanje. Podaci ostaju korisni nakon anonimizacije. Prava osobna imena se uklanjaju. Brendovske oznake, nazivi gradova i identifikatori proizvoda ostaju.

Ako ste napustili Presidio zbog problema s laznim pozitivnim, ovo je put naprijed. Ne nova konfiguracija istog modela. Drugacija arhitektura izgradjena za kontekste poslovnih dokumenata.

Izvori

Priva PII Benchmark 2024: Procjena preciznosti Presidia. VERIFICIRANO-EKSTERNO.

Microsoft Presidio: Podrzani entiteti i arhitektura modela. VERIFICIRANO-EKSTERNO.

spaCy: Podaci za obuku i ogranicenja en_core_web_lg. VERIFICIRANO-EKSTERNO.

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.