anonym.legal

By · Last updated 2026-06-05

Înapoi la BlogTehnic

Problema de precizie 22,7% a Presidio

Un benchmark din 2024 a descoperit că recunoaștorul de nume de persoane al Presidio atinge o precizie de 22,7% în documentele de afaceri — adică 77,3% dintre detecții sunt fals pozitive.

June 5, 20267 min citire
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Problema de precizie 22,7% a Presidio

Fals pozitivele în detecția PII produc daune reale. Când 77,3% din ceea ce instrumentul tău marchează drept „nume de persoane” nu sunt nume reale, nu protejezi confidențialitatea. Distrugi date.

Un benchmark din 2024 a testat modelul NER implicit al Microsoft Presidio pe documente de afaceri. Testul a acoperit rapoarte financiare, scrisori pentru clienți, documente de produs și tichete de suport. Rezultatul: precizie de 22,7% pentru detecția numelor.

Acel număr este izbitor. Din fiecare 100 de elemente marcate, 23 sunt nume reale de persoane. Celelalte 77 sunt fals pozitive — etichete de produs, termeni de brand sau etichete de oraș.

Trei din patru detecții sunt greșite. Aceasta nu este o problemă minoră de calibrare. Este un instrument stricat pentru lucrul cu documente de afaceri.

De ce se întâmplă asta

Presidio folosește modelul en_core_web_lg al spaCy ca implicit. Acest model a învățat din text de știri. În știri, cei mai mulți substantivi proprii sunt persoane sau locuri reale.

Documentele de afaceri sunt diferite.

Etichete de produs care arată ca nume de persoane individuale. „Apple iPhone 15 Pro registre de expediere” este marcat ca PERSOANĂ. La fel și „Samsung Galaxy Tab” și „Cisco Meraki implementare.”

Termeni de companie cu părți asemănătoare numelor. În „Johnson Controls rezultate”, cuvântul „Johnson” este marcat ca PERSOANĂ. „Goldman Sachs portofoliu” declanșează aceeași eroare.

Etichete de locație care declanșează detecția de persoane. „Victoria Harbour proiect” marchează „Victoria” ca PERSOANĂ. „Santiago hub” marchează „Santiago” în același mod.

Modelului îi lipsește contextul pentru a distinge „Apple” (companie) de „Apple Smith” (o persoană). Acel decalaj este rădăcina celor mai multe fals pozitive. Textul de știri l-a învățat să trateze substantivele proprii ca persoane sau locuri. Textul de afaceri încalcă această regulă tot timpul.

Efectul în aval

O firmă de date a folosit Presidio pentru a curăța sondajele clienților înainte de a le partaja. Un audit a descoperit patru probleme. În primul rând, 40% dintre sondaje aveau etichete de produs eliminate eronat. În al doilea rând, etichetele de oraș erau eliminate din fiecare răspuns. În al treilea rând, mențiunile de brand fuseseră șterse din setul de analiză. În al patrulea rând, sentimentul față de produse specifice nu putea fi citit.

Echipa de analiză a primit text redactat cu toate referințele la produse eliminate. Sondajul numise inițial iPhone Pro și încărcătorul Apple. Acea semnificație dispăruse.

Firma nu proteja mai bine confidențialitatea. Distrugea date fără a obține conformitate. Presidio a fost înlocuit după audit.

Consultați prezentarea noastră de conformitate pentru a înțelege cum calitatea detecției afectează poziția ta de reglementare.

O abordare mai bună: detecție hibridă

Problema nu este unică pentru Presidio. NER la nivel de token fără context va avea întotdeauna această problemă. Soluția este detecția conștientă de context.

De ce ajută transformatoarele: Un model precum XLM-RoBERTa citește întreaga propoziție. „Apple a anunțat câștigurile sale” → Apple este o firmă. „Apple Smith s-a alăturat echipei” → Apple este un prenume. Contextul îți spune care este care.

Aceasta îmbunătățește precizia păstrând recall-ul ridicat. Consultați comparația de mai jos.

AbordarePrecizieRecall
NER implicit Presidio22,7%~85%
Numai regex~95%~40%
Hibrid (Regex + NLP + Transformer)~85%~80%

Abordarea hibridă atinge 85% precizie. Aceasta înseamnă o rată de fals pozitive de 15%. Mult mai bine decât 77,3%. Pentru documente de afaceri, acest decalaj contează.

Stiva hibridă are patru pași:

  1. Stratul regex: Găsește ID-uri structurate — e-mailuri, numere de telefon, SSN-uri, IBAN-uri. Formatele sunt fixe, astfel fals pozitivele sunt rare. Acesta rulează primul.

  2. Stratul NLP (spaCy): NER standard pentru persoane, firme și locuri. Recall ridicat, precizie mai scăzută.

  3. Stratul transformer (XLM-RoBERTa): Re-scorează fiecare rezultat NLP folosind contextul întregii propoziții. „Apple” în context de produs pierde scorul de entitate. „John” în textul unei reclamații îl câștigă.

  4. Pragul de încredere: Doar rezultatele peste un scor stabilit trec la ieșire. Ridică pragul pentru cazuri de utilizare analitică. Coboară-l pentru de-identificarea HIPAA.

Rezultate după schimbare

Firma de analiză a trecut la detecție hibridă. Câștigurile au fost clare. Fals pozitivele pentru etichete de produs au scăzut de la 40% la 3%. Fals pozitivele pentru etichete de oraș au căzut aproape de zero. Recall-ul real de identitate a rămas la ~82%, ușor scăzut față de 85%, dar precizia s-a îmbunătățit mult.

Sondajele au devenit din nou utilizabile. „iPhone,” „Apple,” „Samsung,” și „Chicago” au rămas în text. Numele clienților în contexte de reclamații au fost eliminate corect.

Detecția hibridă necesită mai mult calcul. Pentru lucrările mari, timpii de execuție sunt puțin mai lungi. Pentru cele mai multe cazuri de utilizare de afaceri, câștigul de acuratețe merită. Firma putea rula din nou analiza. Acesta era întregul scop al datelor din sondaj.

Citiți despre abordarea noastră de detecție în prezentarea de securitate.

Când ratele ridicate de fals pozitive sunt acceptabile

Unele cazuri favorizează recall-ul față de precizie.

HIPAA Safe Harbor: Ratarea unui adevărat pozitiv este o încălcare. O rată de fals pozitive de 10% este acceptabilă dacă PHI real nu este niciodată ratat. Eliminarea excesivă este mai sigură decât eliminarea insuficientă.

Revizuire juridică: Ratarea unui contact privilegiat poate renunța la privilegiu. Fals pozitivele necesită revizuire, dar nu creează răspundere.

Analiză de afaceri: Eliminarea excesivă strică datele fără un câștig de conformitate. Precizia contează mai mult aici. Folosiți o abordare hibridă cu un prag de încredere ridicat. Aceasta menține etichetele de brand și termenii de oraș în ieșire. Numai numele reale de persoane sunt eliminate.

Echilibrul corect depinde de cazul tău de utilizare. Instrumentele care îți permit să setezi pragul îți oferă control. Nicio valoare implicită singulară nu funcționează pentru fiecare context.

Consultați FAQ-ul nostru pentru întrebări frecvente despre praguri și moduri de detecție.

Concluzie

O rată de precizie de 22,7% înseamnă că 3 din 4 detecții sunt greșite. Pentru documentele de afaceri, aceasta face ieșirea inutilizabilă pentru analiză. De asemenea, oferă o falsă încredere despre conformitate.

Detecția hibridă rezolvă asta. Combină regex, NLP și scorarea cu transformer. Datele rămân utile după anonimizare. Numele reale de persoane sunt eliminate. Etichetele de brand, termenii de oraș și identificatorii de produse rămân.

Dacă ați părăsit Presidio din cauza problemelor cu fals pozitivele, aceasta este calea de urmat. Nu o nouă configurare a aceluiași model. O arhitectură diferită construită pentru contexte de documente de afaceri.

Surse

Priva PII Benchmark 2024: Evaluarea preciziei Presidio. VERIFICAT-EXTERN.

Microsoft Presidio: Entități suportate și arhitectura modelului. VERIFICAT-EXTERN.

spaCy: Date de antrenament și limitări en_core_web_lg. VERIFICAT-EXTERN.

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.