Aktualizováno pro rok 2026
Problém 22,7% přesnosti
Studie z roku 2024 testovala Microsoft Presidio na obchodních souborech. Presidio je open-source nástroj pro PII. Hojně jej používají právní týmy i zdravotnické organizace.
Studie měřila, jak často mělo Presidio pravdu. Z všech položek, které označilo jako jména osob, kolik jich skutečně bylo jmény osob?
Odpověď zní: 22,7 %. Přibližně 77 ze každých 100 označení bylo chybných. Studie napočítala 13 536 falešných označení napříč 4 434 vzorkovými soubory.
Chyby nebyly náhodné. Sledovaly jasné vzory:
- Zájmena označená jako osoby (například „I" na začátku věty)
- Označení lodí označená jako osoby (například „ASL Scorpio")
- Označení firem označená jako osoby (například „Deloitte & Touche")
- Zeměpisné názvy označené jako osoby (například „Argentina" nebo „Singapore")
Žádný z těchto případů není vzácnou hraničním případem. Vyskytují se vždy, když se obecný model NLP setká s textem specifickým pro danou doménu. Model nebyl vytvořen, aby je od sebe odlišoval.
Co stojí falešná označení
V právní a zdravotnické práci vyžaduje každé označení odezvu. Týmy mají tři možnosti. Všechny tři mají reálné náklady.
Možnost 1: Člověk zkontroluje každé označení. Čas právníků a odborníků vychází na 200 až 800 dolarů za hodinu. Při přesnosti 22,7 % je objem obrovský. To ve velkém měřítku není životaschopné. Viz eDiscovery automatizace PII a snížení nákladů na právní revizi, kde jsou popsány rostoucí náklady na revizi s objemem.
Možnost 2: Přeskočit revizi a důvěřovat výstupu. To je také riskantní. Pokud 77 % redigovaných položek není citlivých, vytváříte právní riziko. Soudy pokutovaly právníky za nadměrné redigování. Viz sankce za nadměrné redigování v eDiscovery pro zdokumentované případy.
Možnost 3: Zvýšit práh skóre. Presidio umožňuje uživatelům nastavit score_threshold pro odstranění slabých označení. Studie DICOM z roku 2024 toto testovala při hodnotě 0,7 — poměrně vysoká laťka. Výsledek: 38 z 39 snímků DICOM stále mělo falešná označení. Prahové hodnoty pomáhají. Neodstraňují kořenovou příčinu.
Proč obecné NLP zde selhává
Mezera Presidia vychází z nesouladu mezi trénovacími daty a reálným použitím.
Právní soubory jsou plné termínů s velkými písmeny. Názvy případů, tituly zákonů a kódy příloh všechny vypadají jako osobní data pro obecný model. Označuje je. Většina z nich osobní data nejsou.
Zdravotní soubory přidávají názvy léků, kódy přístrojů a klinické zkratky. Zkratka „Pt." znamená pacient. „Dr." znamená doktor. Tyto zkratky narušují detekci entit způsoby, které je těžké předvídat.
Finanční soubory mají kódy produktů, řetězce entit a ID účtů, které sdílejí povrchové vzory s osobními záznamy.
Doladění modelu na doménových datech pomáhá. Ale jeho vytvoření a udržování vyžaduje čas a úsilí.
Jak hybridní detekce toto řeší
Problém falešných označení má jasné řešení. Rozdělte práci podle typu dat.
Pravidla vzorů pro strukturovaná data. Čísla sociálního pojištění, telefonní čísla, e-mailové adresy a formáty ID se řídí pevnými pravidly. Řetězec buď odpovídá vzoru a prochází testem kontrolní číslice, nebo ne. Nulová falešná označení pro platné sady pravidel.
Jazykové modely pro volný text. Jména a příjmení, označení firem a místa v próze nemají pevnou strukturu. NLP je nachází tam, kde pravidla nestačí. Skóre spolehlivosti a kontroly kontextu snižují míru falešných označení.
Nastavení skóre pro každý typ pro jemné ovládání. Právní týmy, které nemohou riskovat nadměrné redigování, nastavují vysoké prahové hodnoty pro fuzzy shody. Výzkumné týmy, které potřebují vysoké zachycení, nastavují nižší. Viz Binární detekce PII a skórování spolehlivosti pro soulad, jak fungují úrovně skóre v praxi.
Výsledkem je výrazně méně chyb než při výchozím nastavení Presidio. Zachycení zůstává silné tam, kde by pravidla samotná přehlédla příliš mnoho.
Pro právní a zdravotnické týmy není klíčovou otázkou, zda falešná označení existují. Vždy existují v systémech NLP. Otázka je, zda nástroj umožňuje nastavit, měřit a dokumentovat tento kompromis.