By · Last updated 2026-04-03

Späť na blogTechnické

Dan falošnych pozitívov v nastrojoch na detekciu PII

GitHub issue Presidio č. 1071 dokumentuje systematicke falošne pozitívy. Studia z roku 2024 zistila 22,7-percentnu preciznost na zmieszanych podnikových datasetoch.

April 3, 20268 min čítania
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Dan falošnych pozitívov v nastrojoch na detekciu PII

Aktualizované pre rok 2026

Väčšina nástrojov na PII je hodnotená podla navratnosti (recall). Navratnost meria, aky podiel skutočnej PII nastroj nájde. Ale preciznost (precision) je rovnako dolezita. Preciznost meria, aky podiel upozorneni nástroja zodpoveda skutočnej PII.

Nizka preciznost je nakladna. Systém s 95-percentnou navratnostou a 22,7-percentnou preciznostou zachytí väčšinu PII. No na každu skutocnu entitu PII, ktoru označi, vydá aj 3,4 nesprávnych upozorneni. V datasete s 10 000 skutočnymi entitami PII tento systém vyvolá asi 44 000 upozorneni. Pribline 34 000 z nich je nespravnych. Každe stoji čas na kontrolu alebo spôsobuje nadmernú redakciu.

Toto je dan falošnych pozitívov. Je to réžia, ktoru každy tím plati pri prevadzkovaní systému s vysokou navratnostou a nizkou preciznostou vo veľkom meradle. Priamy náklad je čas kontrolóra. Nepriamy náklad je horší: nadmerne zredigované dokumenty skryvaju uzitocné data, spomaluju pracu a oslabuju dôveru k nastroju.

Co ukazuje Presidio issue č. 1071

Diskusia na GitHub pre Microsoft Presidio č. 1071 (2024) zaznamenáva konkrétny vzorec. Rozpoznávače TFN (Tax File Number) a PCI pouzívaju overovanie kontrolnym súčtom. Čísla, ktore prejdu kontrolnym súčtom, dostávaju skore 1,0 — maximálnu istotu. Nevyzaduje sa ziadny kontext PII.

Korenova pricina: kontrola kontextového slova prebieha po kroku kontrolného súčtu, nie pred nim. Číslo, ktore prejde kontrolnym súčtom, dostane najvyssie skore bez ohľadu na okolitý text. Vo financnych tabuľkach, vedeckych datasetoch alebo súboroch log toto zaplavuje vystup nesprávnymi upozorneniami. Filtrovanie prahom skore to nemoze opravit. Skore su uz na maxime.

Druhy vzorec sa objavuje v Presidio issue č. 999. Segmentácia nemeckych slov sa rozpadá pri zložených podstatnych menách. Slová ako Bundesbehörde (federálny úrad) môžu byt nesprávne rozdelene a oznacene ako osobné mena. Toto pridáva šum do akéhokoľvek nemeckého dokumentu.

Problem 22,7-percentnej preciznosti

Alvaro et al. (2024) testovali Presidio na zmiešaných podnikových datasetoch. Zistili 22,7-percentnu preciznost. V skutočnych dokumentoch menej ako jedno zo štyroch upozorneni Presidio je skutočná entita PII. Toto zodpovedá tomu, co odbornici z praxe hlásia. Nastroj nalaðeny výhradne pre navratnost produkuje pre produkcné použitie prilis vela šumu.

Studia DICOM z roku 2024 ukázala, ze zvýsenie score_threshold na 0,7 stále nechávalo nesprávne upozornenia v 38 zo 39 medicínskych obrázkov. Prah, ktory odstraní šum v jednom type dokumentu, vytvára zmeskané detekcie v inom.

Toto nie je problem iba Presidia. Akykolvek pevny prah vynucuje kompromis. Vysoky prah znizuje šum, ale zvysuje zmeskane detekcie. Nizky prah zvysuje navratnost, ale nafukuje počet upozorneni.

Skorovanie s ohladom na kontext

Opravou je skorovanie istoty s ohladom na kontext. Namiesto skorovania zalozeného iba na zhode vzoru systém zvysuje istotu, ked sa v blízkosti zhody objavuju kontextové slová. Tiez znizuje skore, ked kontext chyba.

Pre detekciu TFN: slová ako "tax file number," "TFN" alebo "Australian tax" v blízkosti čísla zvysuju jeho skore. Číslo, ktore prejde kontrolnym súčtom, ale nemá blízke kontextové slová, dostane skore pod prah kontroly. Neopodstatněné upozornenie je potlačené.

Pre medzijazyčny šum: typy entít viazané na konkrétne krajiny môžu byt ohraničené na dokumenty v zodpovedajucom jazyku. Detektor TFN ohraničeny na anglicku a australskú anglictinu odstraňuje šum. Spustenie na nemeckom obsahu bez ohraničenia je zdrojom problemu.

Tretou vrstvou v hybridnom systéme je transformerovy model. Čita celé kontextové okno okolo každeho kandidáta. Rozlisuje "Ján Novák, ID pacienta 12345" od produktoveho kódu, ktory zodpovedá vzoru mena. Kontext resolves nejednoznačnost, ktoru regex a kontrolné súčty nemozu vyriesiť.

Pozrite, ako trojvrstvový detekčný engine zvládá preciznost vo veľkom meradle. Pruvodca viacjazyčnou detekciou PII pokryva, ako medzijazyčny šum ovplyvňuje dodrzanie GDPR.

Prakticke kroky

Pred nasadením akéhokoľvek PII nástroja zmerajte jeho preciznost — nielen navratnost.

Spustite nastroj na sade dokumentov so znamou PII a znamou non-PII. Spočitajte upozornenia v oboch skupinách. Vypočitajte true_positives / (true_positives + false_positives). Toto číslo odhaluje záťaž na kontrolóra pred tým, ako sa zaväzete k nasadeniu.

Pre tímy uz pouzívajúce Presidio je analýza distribúcie skóre rychlou cestou. Exportujte vzorku detekcií s ich skóre istoty. Spočítajte, kolko skóruje pod 0,6, 0,7 a 0,8. Velky podiel upozornení s vysokym skóre v cistom texte signalizuje medzeru v kontexte, nie problem prahovania. Prehlad bezpecnostného dodrziavania vysvetľuje, ako toto zdokumentovat v DPIA.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.