anonym.legal

By · Last updated 2026-06-05

Nazaj na blogTehnično

Problem natancnosti Presidio: 22,7 %

Primerjalna analiza iz leta 2024 je pokazala, da prepoznavalnik imen oseb v Presidiu dosega 22,7-odstotno natancnost pri poslovnih dokumentih -- kar pomeni, da je 77,3 % zaznav laznih pozitivnih.

June 5, 20267 min branja
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Problem natancnosti Presidio: 22,7 %

Lazni pozitivni rezultati pri zaznavanju PII povzrocajo resnicno škodo. Ce je 77,3 % tistega, kar vaše orodje oznaci kot "ime osebe", v resnici ne prave ime, ne ščitite zasebnosti. Unicujete podatke.

Primerjalna analiza iz leta 2024 je testirala privzeti model NER Microsoft Presidio na poslovnih dokumentih. Test je zajemal financna porocila, pisma strankam, dokumentacijo izdelkov in zahtevke za podporo. Rezultat: 22,7-odstotna natancnost za zaznavanje imen.

Ta število je presenetljivo. Na vsakih 100 oznacenih elementov je 23 resnicnih individualnih imen. Ostalih 77 so lazni pozitivni -- oznake izdelkov, blagovne znamke ali oznake mest.

Tri od stirih zaznav so napacne. To ni manjša kalibracijaska tezava. To je pokvarjeno orodje za delo s poslovnimi dokumenti.

Zakaj se to dogaja

Presidio privzeto uporablja SpaCyjev model en_core_web_lg. Ta model se je ucil na novinarskih besedilih. V novicah je vecina lastnih imen resnicnih oseb ali krajev.

Poslovni dokumenti so drugacni.

Oznake izdelkov, ki izgledajo kot imena posameznikov. "Zapisnik o pošiljki Apple iPhone 15 Pro" dobi oznako PERSON. Enako se zgodi z "Samsung Galaxy Tab" in "Cisco Meraki deployment."

Poslovni izrazi z deli, ki spominjajo na imena. V besedilu "rezultati Johnson Controls" je beseda "Johnson" oznacena kot PERSON. "Portfelj Goldman Sachs" sproži enako napako.

Oznake krajev, ki sprozijo zaznavanje oseb. "Projekt Victoria Harbour" oznaci "Victoria" kot PERSON. Na enak nacin se oznaci "Santiago hub".

Modelu manjka kontekst, ki bi locil med "Apple" (podjetje) in "Apple Smith" (oseba). Ta vrzel je koren vecine laznih pozitivnih rezultatov. Novinarska besedila so ga naucila, da obravnava lastna imena kot osebe ali kraje. Poslovni dokumenti to pravilo pogosto krsijo.

Posledice za nadaljnje postopke

Podjetje za analizo podatkov je uporabljalo Presidio za cišcenje anket strank pred deljenjem. Revizija je odkrila stiri tezave. Prvic, 40 % anket je imelo napacno odstranjene oznake izdelkov. Drugic, oznake mest so bile izbrisane iz vsakega odgovora. Tretjic, omembe blagovnih znamk so bile odstranjene iz analiznega nabora. Cetrtič, mnenja o dolocenih izdelkih ni bilo mogoce prebrati.

Analitska ekipa je prejela redaktiran tekst z odstranjenimi vsemi referencami na izdelke. Anketa je prvotno omenjala iPhone Pro in polnilnik Apple. Ta pomen je bil izgubljen.

Podjetje ni bolje ščitilo zasebnosti. Unicevalo je podatke brez pridobivanja skladnosti. Po reviziji so zamenjali Presidio.

Si oglejte nas pregled skladnosti, kako kakovost zaznavanja vpliva na vašo regulativno ureditev.

Boljši pristop: hibridno zaznavanje

Ta problem ni edinstven za Presidio. NER na ravni zetonov brez konteksta bo vedno imel to tezavo. Rešitev je kontekstno zaznavanje.

Zakaj transformatorji pomagajo: Model, kot je XLM-RoBERTa, prebere celoten stavek. "Apple je objavil svoje zasluzke" -- Apple je podjetje. "Apple Smith se je pridruzil ekipi" -- Apple je ime. Kontekst pove razliko.

To izboljša natancnost ob ohranitvi visoke kolicine pravilno zaznanih primerov. Oglejte si primerjavo spodaj.

PristopNatancnostZaznavanje
Presidio privzeti NER22,7 %~85 %
Samo regex~95 %~40 %
Hibridni (Regex + NLP + Transformator)~85 %~80 %

Hibridni pristop dosega 85-odstotno natancnost. To pomeni 15-odstotno stopnjo laznih pozitivnih. Veliko bolje kot 77,3 %. Za poslovne dokumente je ta razlika pomembna.

Hibridni sklad ima stiri korake:

  1. Plast Regex: Najde strukturirane ID-je -- e-poštne naslove, telefonske stevilke, SSN, IBAN. Formati so fiksni, zato so lazni pozitivni redki. Ta plast deluje prva.

  2. Plast NLP (spaCy): Standardni NER za osebe, podjetja in kraje. Visoka stopnja zaznavanja, nižja natancnost.

  3. Plast transformatorja (XLM-RoBERTa): Znova oceni vsak rezultat NLP z upoštevanjem konteksta celotnega stavka. "Apple" v kontekstu izdelka izgubi svojo oznako entitete. "John" v besedilu pritožbe jo pridobi.

  4. Prag zaupanja: Do izhoda pridejo le zadetki nad doloceno oceno. Dvignite prag za primere analize. Znizajte ga za deidentiikacijo HIPAA.

Rezultati po zamenjavi

Analiticno podjetje je prešlo na hibridno zaznavanje. Izboljšave so bile jasne. Lazni pozitivni za oznake izdelkov so padli s 40 % na 3 %. Lazni pozitivni za oznake mest so se zmanjšali skoraj na nic. Zaznavanje resnicnih identitet je ostalo na ~82 %, rahlo pod 85 %, a natancnost se je mocno izboljšala.

Ankete so postale spet uporabne. "iPhone", "Apple", "Samsung" in "Chicago" so ostali v besedilu. Imena strank v kontekstu pritožb so bila pravilno odstranjena.

Hibridno zaznavanje porabi vec racunalniških virov. Pri velikih nalogah so casi izvajanja nekoliko daljši. Za vecino poslovnih primerov je dobitek pri tocnosti tega vreden. Podjetje je spet lahko opravljalo analizo. To je bil celotni namen podatkov anket.

Preberite o našem pristopu k zaznavanju v pregledu varnosti.

Ko so visoke stopnje laznih pozitivnih sprejemljive

Nekateri primeri dajejo prednost zaznavanju pred natancnostjo.

Varna luka HIPAA: Spregledati resnicen pozitiven rezultat pomeni kršitev. 10-odstotna stopnja laznih pozitivnih je sprejemljiva, ce se pravi PHI nikoli ne spregleda. Prekomerno odstranjevanje je varnejše od premajhnega.

Pravni pregled: Spregledati privilegiran stik lahko pomeni odpoved privilegija. Lazni pozitivni zahtevajo pregled, a ne ustvarjajo odgovornosti.

Poslovna analitika: Prekomerno odstranjevanje unici podatke brez pridobivanja skladnosti. Natancnost je tukaj pomembnejša. Uporabite hibridni pristop z visokim pragom zaupanja. S tem ohranite oznake blagovnih znamk in krajev v izhodu. Odstranijo se le dejanska imena oseb.

Pravicno ravnovesje je odvisno od vašega primera uporabe. Orodja, ki vam omogocajo nastavljanje praga, vam dajejo nadzor. Nobena privzeta nastavitev ne deluje za vsak kontekst.

Si oglejte naš FAQ za pogosta vprašanja o pragih in nacinih zaznavanja.

Zakljucek

22,7-odstotna natancnost pomeni, da so 3 od 4 zaznav napacne. Za poslovne dokumente to naredi izhod neuporaben za analizo. Daje tudi lazno zaupanje glede skladnosti.

Hibridno zaznavanje to popravi. Združuje regex, NLP in vrednotenje transformatorja. Podatki ostanejo koristni po anonimizaciji. Resnicna imena oseb so odstranjena. Oznake blagovnih znamk, izrazi za kraje in identifikatorji izdelkov ostanejo.

Ce ste zapustili Presidio zaradi tezav z laznimi pozitivnimi, je to pot naprej. Ne nova konfiguracija istega modela. Drugacna arhitektura, zgrajena za kontekst poslovnih dokumentov.

Viri

Priva PII Benchmark 2024: Ocena natancnosti Presidio.

Microsoft Presidio: Podprte entitete in arhitektura modela.

spaCy: Podatki za ucenje in omejitve en_core_web_lg.

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.