By · Last updated 2026-04-03

Tagasi BlogisseTehniline

Valepositiivsete maks isikuandmete tuvastustööriistadel

Presidio GitHubi probleem #1071 dokumenteerib süstemaatilisi valepositiivseid tulemusi. 2024. aasta uuring leidis 22,7% täpsuse segakeelsetes ettevõtte andmekogumites.

April 3, 20268 min lugemist
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Valepositiivsete maks isikuandmete tuvastustööriistadel

Uuendatud 2026. aastaks

Enamikku isikuandmete tööriistu hinnatakse meeldetuletamise järgi. Meeldetuletus mõõdab, kui suure osa tegelikust isikuandmest tööriist leiab. Kuid täpsus on sama oluline. Täpsus mõõdab, kui suur osa tööriista hoiatustest on tegelik isikuandmed.

Madal täpsus on kulukas. Süsteem, millel on 95% meeldetuletus ja 22,7% täpsus, tabab enamiku isikuandmetest. Ometi iga tegeliku isikuandmete üksuse kohta, mille ta lipuga märgib, tõstab see ka 3,4 valet hoiatust. Andmekogumis 10 000 tegeliku isikuandmete üksusega käivitab selline süsteem umbes 44 000 hoiatust. Neist umbes 34 000 on valed. Igaüks maksab ülevaatamisel aega või põhjustab üleväljajätmist.

See on valepositiivsete maks. See on üldkulud, mida iga meeskond maksab kõrge meeldetuletuse, madala täpsusega isikuandmete süsteemi suuremahuliselt käitamisel. Otsene kulu on ülevaataja aeg. Kaudne kulu on hullem: liigselt väljajäetud dokumendid peidavad kasulikke andmeid, aeglustavad tööd ja õõnestavad usaldust tööriista vastu.

Mida Presidio probleem #1071 näitab

Microsoft Presidio GitHubi arutelu #1071 (2024) dokumenteerib konkreetse mustri. TFN-i (Tax File Number) ja PCI tunnustajad kasutavad kontrollsumma valideerimist. Numbrid, mis läbivad kontrollsumma, saavad skoori 1,0 - maksimaalne kindlus. Isikuandmete konteksti ei nõuta.

Juurspõhjus: kontekstsõnade kontrollimine töötab pärast kontrollsumma sammu, mitte enne. Number, mis läbib kontrollsumma, saab kõrgeima skoori olenemata ümbritsevast tekstist. Finantstabelites, teadusandmetes või logifailides ujutab see väljundi valede hoiatustega üle. Skoorilävendi filtreerimine ei suuda seda parandada. Skoorid on juba maksimumis.

Teine muster ilmneb Presidio probleemis #999. Saksa sõnasegmenteerimine läheb liitnimisõnade puhul katki. Sõnad nagu Bundesbehorde (föderaalorgan) võivad olla valesti jagatud ja märgistatud isikanimedena. See lisab müra igas saksakeelses dokumendis.

22,7% täpsuse probleem

Alvaro jt (2024) testisid Presidiot segakeelsetes ettevõtte andmekogumites. Nad leidsid 22,7% täpsuse. Tegelikes dokumentides on vähem kui iga neljas Presidio hoiatus tõeline isikuandmete üksus. See vastab sellele, mida praktikud teatavad. Ainult meeldetuletusele häälestatud tööriist toodab tootmiskasutuseks liiga palju müra.

  1. aasta DICOM uuring näitas, et score_threshold tõstmine 0,7-ni jättis 38-s 39-st meditsiinipildist endiselt valed hoiatused. Lävi, mis kõrvaldab müra ühes dokumenditüübis, loob teises vahelejaetud tuvastusi.

See ei ole ainult Presidio probleem. Iga fikseeritud lävi sunnib kompromissile. Kõrge lävi vähendab müra, kuid suurendab vahelejätmisi. Madal lävi suurendab meeldetuletust, kuid paisutab hoiatuste arvu.

Kontekstiteadlik skoreerimine

Lahendus on kontekstiteadlik usaldusskoreerimine. Selle asemel, et skooritada ainult mustri sobitamise põhjal, suurendab süsteem kindlust, kui kontekstsõnad ilmuvad vaste lähedal. See alandab ka skoori, kui kontekst puudub.

TFN-i tuvastamiseks: sõnad nagu "tax file number", "TFN" või "Australian tax" numbri lähedal tõstavad selle skoori. Number, mis läbib kontrollsumma, kuid millel pole lähedal kontekstsõnu, saab skoori alla ülevaatusläve. Juhuslik hoiatus surutakse maha.

Mitmekeelse müra jaoks: konkreetsete riikidega seotud üksuste tüübid saab ulatusega siduda vastavat keelt kasutavate dokumentidega. TFN-i detektor, mis on ulatusega seotud inglise ja Austraalia inglise tekstiga, eemaldab müra. Selle käivitamine saksa keele sisul ilma ulatust määramata on probleemi allikas.

Kolmas kiht hübriidsüsteemis on transformermudel. See loeb täit kontekstiakent iga kandidaadi ümber. See eristab "John Smith, Patient ID 12345" tootekoodi, mis vastab nimemustriga. Kontekst lahendab ebaselguse, mida regex ja kontrollsummad ei suuda.

Vaata, kuidas kolmeastmeline tuvastusmotor käsitleb täpsust suurel skaalal. Mitmekeelne isikuandmete tuvastuse juhend selgitab, kuidas mitmekeelne müra mõjutab GDPR-vastavust.

Praktilised sammud

Enne isikuandmete tööriista juurutamist mõõda selle täpsust - mitte ainult meeldetuletust.

Käivita tööriist dokumentide kogumil, kus on teadaolev isikuandmed ja teadaolev mitteisikuandmed. Loe hoiatusi mõlemas rühmas. Arvuta true_positives / (true_positives + false_positives). See number paljastab ülevaatuskoormuse enne juurutamisele pühendumist.

Presidiot juba kasutavatele meeskondadele on skoorijaotuse analüüs kiire tee. Ekspordi valim tuvastustest koos nende usaldusskooridega. Loe, kui palju skoorivad alla 0,6, 0,7 ja 0,8. Suur osa kõrge skooriga hoiatusi puhtas tekstis viitab kontekstilüngale, mitte läveprobleemile. Turvaline vastavuse ülevaade selgitab, kuidas seda DPIA-s dokumenteerida.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.