By · Last updated 2026-06-05

Atgal į BlogąTechninė

Presidio 22,7 % tikslumo problema

2024 m. lyginamoji analizė nustatė, kad Presidio asmenvardžių atpažintuvas verslo dokumentuose pasiekia 22,7 % tikslumą -- tai reiškia, kad 77,3 % aptikimų yra klaidingai teigiami.

June 5, 20267 min skaityti
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio 22,7 % tikslumo problema

Klaidingai teigiami PII aptikimo atvejai daro realią žalą. Kai 77,3 % to, ką jūsų įrankis pažymi kaip 'asmenvardžius', nėra tikri vardai, jūs ne apsaugote privatumą. Jūs gadinate duomenis.

2024 m. lyginamoji analizė išbandė Microsoft Presidio numatytąjį NER modelį verslo dokumentuose. Testas apėmė finansines ataskaitas, klientų laiškus, produktų dokumentus ir palaikymo užklausas. Rezultatas: 22,7 % tikslumas vardų aptikimui.

Tas skaičius stulbinantis. Iš kiekvieno 100 pažymėtų elementų 23 yra tikri asmenų vardai. Kiti 77 yra klaidingai teigiami -- produktų žymės, prekių ženklų terminai arba miestų pavadinimai.

Trys iš keturių aptikimų yra klaidingi. Tai ne smulkus kalibravimo klausimas. Tai sugadintas įrankis verslo dokumentų darbui.

Kodėl taip atsitinka

Presidio pagal nutylėjimą naudoja spaCy modelį en_core_web_lg. Šis modelis mokėsi iš naujienų tekstų. Naujienose dauguma tikrinių daiktavardžių yra tikri žmonės arba vietos.

Verslo dokumentai yra kitokie.

Produktų žymės, panašios į asmenvardžius. 'Apple iPhone 15 Pro siuntimo įrašai' pažymimi kaip ASMUO. Taip pat ir 'Samsung Galaxy Tab' bei 'Cisco Meraki diegimas'.

Įmonės terminai su vardams panašiomis dalimis. Sakinyje 'Johnson Controls rezultatai' žodis 'Johnson' pažymimas kaip ASMUO. 'Goldman Sachs portfelis' sukelia tą pačią klaidą.

Vietovardžiai, suaktyvinantys asmenų aptikimą. 'Victoria Harbour projektas' pažymi 'Victoria' kaip ASMUO. 'Santiago centras' pažymi 'Santiago' taip pat.

Modelis neturi konteksto, kad atskirtų 'Apple' (įmonę) nuo 'Apple Smith' (asmenį). Ta spraga yra daugumos klaidingų teigiamų šaknis. Naujienų tekstai jį išmokė laikyti tikriniais daiktavardžiais žmones ar vietas. Verslo tekstas nuolat laužo tą taisyklę.

Poveikis tolesniam apdorojimui

Duomenų įmonė naudojo Presidio kliento apklausoms išvalyti prieš jas bendrindama. Auditas rado keturias problemas. Pirma, 40 % apklausų turėjo klaidingai pašalintas produktų žymes. Antra, miestų pavadinimai buvo ištrinti iš kiekvieno atsakymo. Trečia, prekių ženklų paminėjimai buvo pašalinti iš analizės rinkinio. Ketvirta, nuotaikos dėl konkrečių produktų nebuvo įmanoma perskaityti.

Analizės komanda gavo redaguotą tekstą su pašalintomis visomis produktų nuorodomis. Apklausoje iš pradžių buvo paminėtas iPhone Pro ir Apple įkroviklis. Ta reikšmė dingo.

Įmonė ne geriau apsaugojo privatumą. Ji gadino duomenis negavusi atitikties naudos. Presidio buvo pakeistas po audito.

Žr. mūsų atitikties apžvalgą apie tai, kaip aptikimo kokybė veikia jūsų reguliacinę padėtį.

Geresnis metodas: hibridinis aptikimas

Problema nėra unikali Presidio. Žetono lygio NER be konteksto visada turės šią problemą. Sprendimas yra kontekstui jautrus aptikimas.

Kodėl transformeriai padeda: Modelis kaip XLM-RoBERTa skaito visą sakinį. 'Apple paskelbė savo pajamas' -- Apple yra įmonė. 'Apple Smith prisijungė prie komandos' -- Apple yra vardas. Kontekstas pasako, kuris yra kuris.

Tai pagerina tikslumą išlaikant aukštą atkūrimą. Žr. palyginimą žemiau.

MetodasTikslumasAtkūrimas
Presidio numatytasis NER22,7 %~85 %
Tik regex~95 %~40 %
Hibridinis (Regex + NLP + Transformer)~85 %~80 %

Hibridinis metodas pasiekia 85 % tikslumą. Tai reiškia 15 % klaidingų teigiamų rodiklį. Daug geriau nei 77,3 %. Verslo dokumentams šis skirtumas svarbus.

Hibridinis paketas turi keturis žingsnius:

  1. Regex sluoksnis: randa struktūrinius ID -- el. pašto adresus, telefono numerius, SSN, IBAN. Formatai yra fiksuoti, todėl klaidingai teigiami yra reti. Tai veikia pirmiausia.

  2. NLP sluoksnis (spaCy): standartinis NER žmonėms, įmonėms ir vietoms. Didelis atkūrimas, mažesnis tikslumas.

  3. Transformer sluoksnis (XLM-RoBERTa): perpvertina kiekvieną NLP rezultatą naudodamas visą sakinio kontekstą. 'Apple' produkto kontekste praranda savo objekto įvertį. 'John' skundo tekste jį gauna.

  4. Pasitikėjimo slenkstis: tik rezultatai virš nustatyto balo patenka į išvestį. Padidinkite slenkstį analitikos naudojimo atvejams. Sumažinkite jį HIPAA de-identifikavimui.

Rezultatai po perjungimo

Analitikos įmonė perėjo prie hibridinio aptikimo. Laimėjimai buvo akivaizdūs. Produktų žymių klaidingai teigiami sumažėjo nuo 40 % iki 3 %. Miestų pavadinimų klaidingai teigiami sumažėjo iki beveik nulio. Tikros tapatybės atkūrimas išliko ~82 %, šiek tiek sumažėjęs nuo 85 %, tačiau tikslumas labai pagerėjo.

Apklausos vėl tapo naudingomis. 'iPhone', 'Apple', 'Samsung' ir 'Chicago' liko tekste. Klientų vardai skundų kontekstuose buvo teisingai pašalinti.

Hibridinis aptikimas reikalauja daugiau skaičiavimų. Dideliems darbams vykdymo laikas šiek tiek ilgesnis. Daugeliui verslo naudojimo atvejų tikslumo laimėjimas to vertas. Įmonė vėl galėjo atlikti analizę. Tai ir buvo apklausos duomenų tikslas.

Skaitykite apie mūsų aptikimo metodą saugos apžvalgoje.

Kada aukšti klaidingai teigiamų rodikliai yra priimtini

Kai kurie atvejai teikia pirmenybę atkūrimui prieš tikslumą.

HIPAA 'Safe Harbor': praleisti tikrą teigiamą yra pažeidimas. 10 % klaidingai teigiamų rodiklis yra gerai, jei tikras PHI niekada neprametamas. Perteklinis šalinimas yra saugesnis nei nepakankamas šalinimas.

Teisinė peržiūra: praleistas privilegijuotas kontaktas gali panaikinti privilegiją. Klaidingai teigiami reikalauja peržiūros, bet nesukuria atsakomybės.

Verslo analitika: perteklinis šalinimas gadina duomenis negaunant atitikties naudos. Tikslumas čia svarbesnis. Naudokite hibridinį metodą su aukštu pasitikėjimo slenksčiu. Tai išlaiko prekių ženklų žymes ir miestų terminus išvestyje. Pašalinami tik tikri asmenvardžiai.

Tinkamas balansas priklauso nuo jūsų naudojimo atvejo. Įrankiai, leidžiantys nustatyti slenkstį, suteikia jums kontrolę. Joks vienintelis numatytasis nustatymas netinka kiekvienam kontekstui.

Žr. mūsų DUK dažniausiai užduodamų klausimų apie slenksčius ir aptikimo režimus.

Išvada

22,7 % tikslumo rodiklis reiškia, kad 3 iš 4 aptikimų yra klaidingi. Verslo dokumentams tai padaro išvestį nenaudingą analizei. Tai taip pat suteikia klaidingą pasitikėjimą atitiktimi.

Hibridinis aptikimas tai ištaiso. Jis derina regex, NLP ir transformer įvertinimą. Duomenys išlieka naudingi po anonimiškumo užtikrinimo. Tikri asmenvardžiai pašalinami. Prekių ženklų žymės, miestų terminai ir produktų identifikatoriai lieka.

Jei palikote Presidio dėl klaidingai teigiamų problemų, tai yra kelias į priekį. Ne nauja to paties modelio konfigūracija. Kitokia architektūra, sukurta verslo dokumentų kontekstams.

Šaltiniai

Priva PII lyginamoji analizė 2024: Presidio tikslumo įvertinimas. PATIKRINTA IŠORIŠKAI.

Microsoft Presidio: Palaikomi objektai ir modelio architektūra. PATIKRINTA IŠORIŠKAI.

spaCy: en_core_web_lg mokymo duomenys ir apribojimai. PATIKRINTA IŠORIŠKAI.

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.