By · Last updated 2026-04-03

Til baka á BloggTæknilegt

Ranga jákvæðis-skatturinn á PII-greiningartækjum

Presidio GitHub-mál #1071 skráir kerfisbundnar rangar jákvæðar. Rannsókn frá 2024 fann 22,7% nákvæmni í blönduðum tungumála-fyrirtækjagagnasettum.

April 3, 20268 mín lestur
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Ranga jákvæðis-skatturinn á PII-greiningartækjum

Uppfært fyrir 2026

Flest PII-tæki eru dæmd á endurheimtu. Endurheimta mælir hvaða hlutfall raunverulegs PII tækið finnur. En nákvæmni skiptir jafnmiklu máli. Nákvæmni mælir hvaða hlutfall af viðvörunum tækisins eru raunverulegt PII.

Lág nákvæmni er dýr. Kerfi með 95% endurheimtu og 22,7% nákvæmni fangar mest allt PII. En fyrir hverja raunverulega PII-einingu sem það merkir, veldur það líka 3,4 röngum viðvörunum. Í gagnasetti með 10.000 raunverulegum PII-einingum sendir þetta kerfi u.þ.b. 44.000 viðvaranir. Um 34.000 þeirra eru rangar. Sérhvert kostar tíma til skoðunar eða veldur yfir-afmáningu.

Þetta er ranga jákvæðis-skatturinn. Það er kostnaðurinn sem sérhvert lið greiðir þegar keyrð er hátta-minna, lág-nákvæmni PII-kerfi í stórum hluta. Bein kostnaðurinn er endurskoðandatími. Óbein kostnaðurinn er verri: yfir-afmáð skjöl fela gagnlegar upplýsingar, hægja á vinnu og grípa traust til tækisins.

Hvað Presidio-mál #1071 sýnir

Microsoft Presidio GitHub-umræða #1071 (2024) skráir ákveðið mynstur. TFN (Tax File Number) og PCI-viðurkennarar nota prófsamtölustaðfestingu. Tölur sem standast prófsamtöluna fá skor 1.0 -- hámarkstraust. Engin PII-samhengi er krafist.

Rótarástæðan: samhengisorðatryggjar keyra eftir prófsamtölustigið, ekki áður. Tala sem stenst prófsamtöluna fær hæsta skor óháð umhverfistexta. Í fjárhagslegar töflureiknir, vísindagagnasett eða skráningarskrár flæðir þetta niðurrönd af röngum viðvörunum. Skorþröskuldssíun getur ekki lagað það. Skorin eru þegar á hámarki.

Annað mynstur kemur fram í Presidio-máli #999. Þýsk orðskiptingargreining bilar fyrir samsett nafnorð. Orð eins og Bundesbehörde (alríkisstofnun) geta skipt rangt og verið merkt sem eiginnöfn. Þetta bætir hljóm í öllum þýskum skjölum.

22,7% nákvæmnivandinn

Alvaro o.fl. (2024) prófuðu Presidio á blönduðum tungumála-fyrirtækjagagnasettum. Þeir fundu 22,7% nákvæmni. Í raunverulegum skjölum er færri en ein af fjórum Presidio-viðvörunum raunveruleg PII-eining. Þetta passar við það sem sérfræðingar skýra frá. Tæki fínstillt einungis á endurheimtu framleiðir of mikið hávaða til framleiðslunotkunar.

DICOM-rannsókn frá 2024 sýndi að hækkun score_threshold í 0.7 skildi eftir rangar viðvaranir í 38 af 39 lækningamyndum. Þröskuldur sem hreinsar hávaða í einum skjalsgerð veldur mistum í annarri.

Þetta er ekki Presidio-einu-saman-vandamál. Sérhver fastur þröskuldur þvingar skipti. Hár þröskuldur skerðir hávaða en hækkar missir. Lágur þröskuldur hækkar endurheimtu en þrúgar viðvörunarfjölda.

Samhengismeðvæt skor

Lausnin er samhengismeðvætt traustmat. Í stað þess að gefa skor byggt á mynsturbrot einum, eykur kerfið traust þegar samhengissamhengissamhengissamhengis-orð birtast nær samsvöruninni. Það lækkar líka skor þegar samhengi vantar.

Fyrir TFN-greiningu: orð eins og "tax file number", "TFN" eða "Australian tax" nær tölu auka skor hennar. Tala sem stenst prófsamtöluna en hefur engin nálæg samhengissamhengis-orð fær skor undir endurskoðunarþröskuldi. Rönga viðvörunin er bæld.

Fyrir krosslingvískan hávaða: einingategundir bundnar við ákveðin lönd er hægt að takmarka við skjöl á samsvarandi tungumáli. TFN-greinir takmarkaður við enskt og ástralenskt-enskt efni fjarlægir hávaða. Keyrsla hans á þýskt efni án takmarkana er uppspretta vandans.

Þriðja lagið í blönduðu kerfi er umbreytilíkan. Það les allt samhengisgluggann umhverfis hvern umsækjanda. Það greinir á milli "John Smith, Patient ID 12345" og vörukóða sem samsvarar nafnamynstri. Samhengi leysir óvisuna sem regex og prófsamtölur geta ekki.

Sjáðu hvernig þriggja-þrepa greiningarvélin sér um nákvæmni í stórum hluta. Leiðbeiningar um margtyngdar PII-greiningar útskýra hvernig krosslingvískt hávaði hefur áhrif á GDPR-samræmi.

Hagnýtar ráðgjafar

Áður en nokkurt PII-tæki er innleitt, skaltu mæla nákvæmni þess -- ekki bara endurheimtu.

Keyrðu tækið á skjalasett með þekktum PII og þekktum ekki-PII. Taldu viðvaranir í báðum hópum. Reiknaðu true_positives / (true_positives + false_positives). Þessi tala sýnir endurskoðunarskyldu áður en þú skuldbindur þig til kynningar.

Fyrir lið sem þegar nota Presidio er skordreifingagreining skjótur leið. Flytjið út sýnishorn af greiningum með traustmat. Talið hversu margt fá skor undir 0.6, 0.7 og 0.8. Stór hluti af há-skor-viðvörunum í hreinum texta gefur til kynna samhengisbil, ekki þröskuldsvandamál. Öryggissamræmisyfirlit útskýrir hvernig á að skrá þetta í DPIA.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.