By · Last updated 2026-03-23

Zpět na blogTechnické

Falešně pozitivní výsledky: Proč ML redigování selhává

Benchmark z roku 2024 zjistil, že Presidio vygenerovalo 13 536 falešně pozitivních detekcí jmen napříč 4 434 vzorky — označovalo zájmena, názvy plavidel a zeměpisná jména jako osoby.

March 23, 20268 min čtení
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Aktualizováno pro rok 2026

Problém 22,7% přesnosti

Studie z roku 2024 testovala Microsoft Presidio na obchodních souborech. Presidio je open-source nástroj pro PII. Hojně jej používají právní týmy i zdravotnické organizace.

Studie měřila, jak často mělo Presidio pravdu. Z všech položek, které označilo jako jména osob, kolik jich skutečně bylo jmény osob?

Odpověď zní: 22,7 %. Přibližně 77 ze každých 100 označení bylo chybných. Studie napočítala 13 536 falešných označení napříč 4 434 vzorkovými soubory.

Chyby nebyly náhodné. Sledovaly jasné vzory:

  • Zájmena označená jako osoby (například „I" na začátku věty)
  • Označení lodí označená jako osoby (například „ASL Scorpio")
  • Označení firem označená jako osoby (například „Deloitte & Touche")
  • Zeměpisné názvy označené jako osoby (například „Argentina" nebo „Singapore")

Žádný z těchto případů není vzácnou hraničním případem. Vyskytují se vždy, když se obecný model NLP setká s textem specifickým pro danou doménu. Model nebyl vytvořen, aby je od sebe odlišoval.

Co stojí falešná označení

V právní a zdravotnické práci vyžaduje každé označení odezvu. Týmy mají tři možnosti. Všechny tři mají reálné náklady.

Možnost 1: Člověk zkontroluje každé označení. Čas právníků a odborníků vychází na 200 až 800 dolarů za hodinu. Při přesnosti 22,7 % je objem obrovský. To ve velkém měřítku není životaschopné. Viz eDiscovery automatizace PII a snížení nákladů na právní revizi, kde jsou popsány rostoucí náklady na revizi s objemem.

Možnost 2: Přeskočit revizi a důvěřovat výstupu. To je také riskantní. Pokud 77 % redigovaných položek není citlivých, vytváříte právní riziko. Soudy pokutovaly právníky za nadměrné redigování. Viz sankce za nadměrné redigování v eDiscovery pro zdokumentované případy.

Možnost 3: Zvýšit práh skóre. Presidio umožňuje uživatelům nastavit score_threshold pro odstranění slabých označení. Studie DICOM z roku 2024 toto testovala při hodnotě 0,7 — poměrně vysoká laťka. Výsledek: 38 z 39 snímků DICOM stále mělo falešná označení. Prahové hodnoty pomáhají. Neodstraňují kořenovou příčinu.

Proč obecné NLP zde selhává

Mezera Presidia vychází z nesouladu mezi trénovacími daty a reálným použitím.

Právní soubory jsou plné termínů s velkými písmeny. Názvy případů, tituly zákonů a kódy příloh všechny vypadají jako osobní data pro obecný model. Označuje je. Většina z nich osobní data nejsou.

Zdravotní soubory přidávají názvy léků, kódy přístrojů a klinické zkratky. Zkratka „Pt." znamená pacient. „Dr." znamená doktor. Tyto zkratky narušují detekci entit způsoby, které je těžké předvídat.

Finanční soubory mají kódy produktů, řetězce entit a ID účtů, které sdílejí povrchové vzory s osobními záznamy.

Doladění modelu na doménových datech pomáhá. Ale jeho vytvoření a udržování vyžaduje čas a úsilí.

Jak hybridní detekce toto řeší

Problém falešných označení má jasné řešení. Rozdělte práci podle typu dat.

Pravidla vzorů pro strukturovaná data. Čísla sociálního pojištění, telefonní čísla, e-mailové adresy a formáty ID se řídí pevnými pravidly. Řetězec buď odpovídá vzoru a prochází testem kontrolní číslice, nebo ne. Nulová falešná označení pro platné sady pravidel.

Jazykové modely pro volný text. Jména a příjmení, označení firem a místa v próze nemají pevnou strukturu. NLP je nachází tam, kde pravidla nestačí. Skóre spolehlivosti a kontroly kontextu snižují míru falešných označení.

Nastavení skóre pro každý typ pro jemné ovládání. Právní týmy, které nemohou riskovat nadměrné redigování, nastavují vysoké prahové hodnoty pro fuzzy shody. Výzkumné týmy, které potřebují vysoké zachycení, nastavují nižší. Viz Binární detekce PII a skórování spolehlivosti pro soulad, jak fungují úrovně skóre v praxi.

Výsledkem je výrazně méně chyb než při výchozím nastavení Presidio. Zachycení zůstává silné tam, kde by pravidla samotná přehlédla příliš mnoho.

Pro právní a zdravotnické týmy není klíčovou otázkou, zda falešná označení existují. Vždy existují v systémech NLP. Otázka je, zda nástroj umožňuje nastavit, měřit a dokumentovat tento kompromis.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.