Aktualizováno pro rok 2026

Problém 22,7% přesnosti

Studie z roku 2024 testovala Microsoft Presidio na obchodních souborech. Presidio je open-source nástroj pro PII. Hojně jej používají právní týmy i zdravotnické organizace.

Studie měřila, jak často mělo Presidio pravdu. Z všech položek, které označilo jako jména osob, kolik jich skutečně bylo jmény osob?

Odpověď zní: 22,7 %. Přibližně 77 ze každých 100 označení bylo chybných. Studie napočítala 13 536 falešných označení napříč 4 434 vzorkovými soubory.

Chyby nebyly náhodné. Sledovaly jasné vzory:

Zájmena označená jako osoby (například „I" na začátku věty)
Označení lodí označená jako osoby (například „ASL Scorpio")
Označení firem označená jako osoby (například „Deloitte & Touche")
Zeměpisné názvy označené jako osoby (například „Argentina" nebo „Singapore")

Žádný z těchto případů není vzácnou hraničním případem. Vyskytují se vždy, když se obecný model NLP setká s textem specifickým pro danou doménu. Model nebyl vytvořen, aby je od sebe odlišoval.

Co stojí falešná označení

V právní a zdravotnické práci vyžaduje každé označení odezvu. Týmy mají tři možnosti. Všechny tři mají reálné náklady.

Možnost 1: Člověk zkontroluje každé označení. Čas právníků a odborníků vychází na 200 až 800 dolarů za hodinu. Při přesnosti 22,7 % je objem obrovský. To ve velkém měřítku není životaschopné. Viz eDiscovery automatizace PII a snížení nákladů na právní revizi, kde jsou popsány rostoucí náklady na revizi s objemem.

Možnost 2: Přeskočit revizi a důvěřovat výstupu. To je také riskantní. Pokud 77 % redigovaných položek není citlivých, vytváříte právní riziko. Soudy pokutovaly právníky za nadměrné redigování. Viz sankce za nadměrné redigování v eDiscovery pro zdokumentované případy.

Možnost 3: Zvýšit práh skóre. Presidio umožňuje uživatelům nastavit score_threshold pro odstranění slabých označení. Studie DICOM z roku 2024 toto testovala při hodnotě 0,7 — poměrně vysoká laťka. Výsledek: 38 z 39 snímků DICOM stále mělo falešná označení. Prahové hodnoty pomáhají. Neodstraňují kořenovou příčinu.

Proč obecné NLP zde selhává

Mezera Presidia vychází z nesouladu mezi trénovacími daty a reálným použitím.

Právní soubory jsou plné termínů s velkými písmeny. Názvy případů, tituly zákonů a kódy příloh všechny vypadají jako osobní data pro obecný model. Označuje je. Většina z nich osobní data nejsou.

Zdravotní soubory přidávají názvy léků, kódy přístrojů a klinické zkratky. Zkratka „Pt." znamená pacient. „Dr." znamená doktor. Tyto zkratky narušují detekci entit způsoby, které je těžké předvídat.

Finanční soubory mají kódy produktů, řetězce entit a ID účtů, které sdílejí povrchové vzory s osobními záznamy.

Doladění modelu na doménových datech pomáhá. Ale jeho vytvoření a udržování vyžaduje čas a úsilí.

Jak hybridní detekce toto řeší

Problém falešných označení má jasné řešení. Rozdělte práci podle typu dat.

Pravidla vzorů pro strukturovaná data. Čísla sociálního pojištění, telefonní čísla, e-mailové adresy a formáty ID se řídí pevnými pravidly. Řetězec buď odpovídá vzoru a prochází testem kontrolní číslice, nebo ne. Nulová falešná označení pro platné sady pravidel.

Jazykové modely pro volný text. Jména a příjmení, označení firem a místa v próze nemají pevnou strukturu. NLP je nachází tam, kde pravidla nestačí. Skóre spolehlivosti a kontroly kontextu snižují míru falešných označení.

Nastavení skóre pro každý typ pro jemné ovládání. Právní týmy, které nemohou riskovat nadměrné redigování, nastavují vysoké prahové hodnoty pro fuzzy shody. Výzkumné týmy, které potřebují vysoké zachycení, nastavují nižší. Viz Binární detekce PII a skórování spolehlivosti pro soulad, jak fungují úrovně skóre v praxi.

Výsledkem je výrazně méně chyb než při výchozím nastavení Presidio. Zachycení zůstává silné tam, kde by pravidla samotná přehlédla příliš mnoho.

Pro právní a zdravotnické týmy není klíčovou otázkou, zda falešná označení existují. Vždy existují v systémech NLP. Otázka je, zda nástroj umožňuje nastavit, měřit a dokumentovat tento kompromis.

Zdroje

Související články

Technické

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

Falešně pozitivní výsledky: Proč ML redigování selhává

Problém 22,7% přesnosti

Co stojí falešná označení

Proč obecné NLP zde selhává

Jak hybridní detekce toto řeší

Zdroje

Související články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Připraveni chránit svá data?

Falešně pozitivní výsledky: Proč ML redigování selhává

Problém 22,7% přesnosti

Co stojí falešná označení

Proč obecné NLP zde selhává

Jak hybridní detekce toto řeší

Zdroje

Související články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow