By · Last updated 2026-06-05

Atpakaļ uz BloguTehniskā

Presidio 22,7% precizitātes problēma

2024. gada etalonmērs atklāja, ka Presidio personas vārda atpazinējs biznesa dokumentos sasniedz 22,7% precizitāti — tas nozīmē, ka 77,3% atklājumu ir viltus pozitīvi rezultāti.

June 5, 20267 min lasīšanai
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio 22,7% precizitātes problēma

Viltus pozitīvi rezultāti PII noteikšanā rada reālu kaitējumu. Ja 77,3% no tā, ko jūsu rīks atzīmē kā "personu vārdus", nav īsti vārdi, jūs neaizsargājat privātumu. Jūs sabojājat datus.

  1. gada etalonmērs testēja Microsoft Presidio noklusējuma NER modeli biznesa dokumentos. Tests aptvēra finanšu pārskatus, klientu vēstules, produktu dokumentus un atbalsta biļetes. Rezultāts: 22,7% precizitāte vārdu noteikšanai.

Šis skaitlis ir pārsteidzošs. No katriem 100 atzīmētajiem elementiem 23 ir īsti individuālie vārdi. Pārējie 77 ir viltus pozitīvi rezultāti — produktu etiķetes, zīmolu termini vai pilsētu nosaukumi.

Trīs no četriem atklājumiem ir nepareizi. Tas nav neliels kalibrācijas jautājums. Tas ir bojāts rīks biznesa dokumentu darbam.

Kāpēc tas notiek

Presidio pēc noklusējuma izmanto spaCy modeli en_core_web_lg. Šis modelis apguva zināšanas no ziņu tekstiem. Ziņās lielākā daļa pareizrakstības vārdu ir īsti cilvēki vai vietas.

Biznesa dokumenti ir atšķirīgi.

Produktu etiķetes, kas izskatās kā individuālie vārdi. "Apple iPhone 15 Pro nosūtīšanas ieraksti" tiek atzīmēti kā PERSON. Tāpat arī "Samsung Galaxy Tab" un "Cisco Meraki izvietošana".

Uzņēmumu termini ar vārdam līdzīgām daļām. Frāzē "Johnson Controls rezultāti" vārds "Johnson" tiek atzīmēts kā PERSON. "Goldman Sachs portfelis" izraisa to pašu kļūdu.

Atrašanās vietas etiķetes, kas aktivizē personas noteikšanu. "Victoria Harbour projekts" atzīmē "Victoria" kā PERSON. "Santiago centrs" atzīmē "Santiago" tādā pašā veidā.

Modelim trūkst konteksta, lai atšķirtu "Apple" (uzņēmums) no "Apple Smith" (persona). Šī plaisa ir lielākās daļas viltus pozitīvo rezultātu sakne. Ziņu teksts iemācīja tam uzskatīt pareizrakstības vārdus par cilvēkiem vai vietām. Biznesa teksts šo noteikumu pārkāpj visu laiku.

Lejupstraumes efekts

Datu uzņēmums izmantoja Presidio, lai pirms koplietošanas attīrītu klientu aptaujas. Audits atklāja četras problēmas. Pirmkārt, 40% aptauju produktu etiķetes tika kļūdaini noņemtas. Otrkārt, pilsētu etiķetes tika izdzēstas no katras atbildes. Treškārt, zīmolu pieminēšana tika noslaucīta no analīzes kopas. Ceturtkārt, noskaņojumu par konkrētiem produktiem nevarēja nolasīt.

Analīzes komanda saņēma rediģētu tekstu ar visām produktu atsaucēm noņemtām. Aptaujā sākotnēji bija nosaukts iPhone Pro un Apple lādētājs. Šī nozīme bija pazudusi.

Uzņēmums neaizsargāja privātumu labāk. Tas saboja datus bez atbilstības ieguvuma. Presidio tika aizstāts pēc audita.

Skatiet mūsu atbilstības pārskatu, lai uzzinātu, kā noteikšanas kvalitāte ietekmē jūsu regulatīvo stāvokli.

Labāka pieeja: hibrīdā noteikšana

Problēma nav unikāla Presidio. NER bez konteksta marķiera līmenī vienmēr būs šī problēma. Labojums ir kontekstjutīga noteikšana.

Kāpēc transformatori palīdz: Modelis kā XLM-RoBERTa lasa visu teikumu. "Apple paziņoja savus ienākumus" — Apple ir uzņēmums. "Apple Smith pievienojās komandai" — Apple ir vārds. Konteksts jums pasaka, kurš ir kurš.

Tas uzlabo precizitāti, vienlaikus saglabājot augstu atcerēšanās spēju. Skatiet salīdzinājumu zemāk.

PieejaPrecizitāteAtcerēšanās
Presidio noklusējuma NER22,7%~85%
Tikai regulārās izteiksmes~95%~40%
Hibrīds (regulārās izteiksmes + NLP + transformators)~85%~80%

Hibrīdā pieeja sasniedz 85% precizitāti. Tas nozīmē 15% viltus pozitīvo rezultātu īpatsvaru. Daudz labāk nekā 77,3%. Biznesa dokumentiem šī starpība ir svarīga.

Hibrīdajam stekam ir četri soļi:

  1. Regulāro izteiksmju slānis: Atrod strukturētos ID — e-pastus, tālruņu numurus, SSN, IBAN. Formāti ir fiksēti, tāpēc viltus pozitīvie rezultāti ir reti. Tas darbojas pirmais.

  2. NLP slānis (spaCy): Standarta NER cilvēkiem, uzņēmumiem un vietām. Augsta atcerēšanās, zemāka precizitāte.

  3. Transformatora slānis (XLM-RoBERTa): Pārvērtē katru NLP rezultātu, izmantojot pilna teikuma kontekstu. "Apple" produkta kontekstā zaudē savu entītiju punktu. "John" sūdzības tekstā to iegūst.

  4. Uzticamības slieksnis: Tikai hiti, kas pārsniedz noteiktu punktu skaitu, nokļūst izvadē. Paceliet slieksni analītikas lietošanas gadījumiem. Pazemina to HIPAA deidentiifikācijai.

Rezultāti pēc pārslēgšanās

Analītikas uzņēmums pārslēdzās uz hibrīdo noteikšanu. Ieguvumi bija skaidri. Produktu etiķešu viltus pozitīvie rezultāti samazinājās no 40% līdz 3%. Pilsētu etiķešu viltus pozitīvie rezultāti samazinājās gandrīz līdz nullei. Reālo identitāšu atcerēšanās palika ~82%, nedaudz samazinoties no 85%, taču precizitāte ievērojami uzlabojās.

Aptaujas kļuva atkal izmantojamas. "iPhone", "Apple", "Samsung" un "Chicago" palika tekstā. Klientu vārdi sūdzību kontekstos tika pareizi noņemti.

Hibrīdā noteikšana prasa vairāk skaitļošanas resursu. Lieliem darbiem izpildes laiki ir nedaudz garāki. Lielākajai daļai biznesa lietošanas gadījumu precizitātes ieguvums ir tā vērts. Uzņēmums varēja atkal veikt analīzi. Tā bija aptaujas datu visa jēga.

Lasiet par mūsu noteikšanas pieeju drošības pārskatā.

Kad augsts viltus pozitīvo rezultātu īpatsvars ir pieņemams

Dažos gadījumos atcerēšanās prioritizē precizitāti.

HIPAA Safe Harbor: Patiesa pozitīvā rezultāta nepamanīšana ir pārkāpums. 10% viltus pozitīvo rezultātu īpatsvars ir labi, ja reāls PHI nekad netiek palaists garām. Pārmērīga noņemšana ir drošāka nekā nepietiekama.

Juridiskā pārskatīšana: Priviliģēta kontakta nepamanīšana var atcelt privilēģiju. Viltus pozitīvie rezultāti ir jāpārskata, taču tie nerada atbildību.

Biznesa analītika: Pārmērīga noņemšana sabojā datus bez atbilstības ieguvuma. Precizitāte šeit ir svarīgāka. Izmantojiet hibrīdo pieeju ar augstu uzticamības slieksni. Tas saglabā zīmolu etiķetes un pilsētu terminus izvadē. Tiek noņemti tikai faktisko personu vārdi.

Pareizais līdzsvars ir atkarīgs no jūsu lietošanas gadījuma. Rīki, kas ļauj iestatīt slieksni, dod jums kontroli. Neviens noklusējums nedarbojas katrā kontekstā.

Skatiet mūsu BUJ, lai atrastu izplatītos jautājumus par sliekšņiem un noteikšanas režīmiem.

Secinājums

22,7% precizitātes īpatsvars nozīmē, ka 3 no 4 atklājumiem ir nepareizi. Biznesa dokumentiem tas padara izvadi neizmantojamu analīzei. Tas arī rada nepamatotu pārliecību par atbilstību.

Hibrīdā noteikšana to labo. Tā apvieno regulārās izteiksmes, NLP un transformatora vērtēšanu. Dati paliek noderīgi pēc anonimizācijas. Īsti personu vārdi tiek noņemti. Zīmolu etiķetes, pilsētu termini un produktu identifikatori paliek.

Ja atstājāt Presidio viltus pozitīvo rezultātu problēmu dēļ, šis ir ceļš uz priekšu. Nevis tā paša modeļa jauna konfigurācija. Cita arhitektūra, kas veidota biznesa dokumentu kontekstiem.

Avoti

Priva PII etalonmērs 2024: Presidio precizitātes novērtējums. PĀRBAUDĪTS-ĀRĒJS.

Microsoft Presidio: Atbalstītās entītijas un modeļu arhitektūra. PĀRBAUDĪTS-ĀRĒJS.

spaCy: en_core_web_lg apmācības dati un ierobežojumi. PĀRBAUDĪTS-ĀRĒJS.

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.