Daň za falešně pozitivní nálezy v nástrojích pro detekci OÚ
Aktualizováno pro rok 2026
Většina nástrojů pro detekci OÚ je hodnocena podle úplnosti (recall). Úplnost měří, jaký podíl skutečných OÚ nástroj nalezne. Jenže přesnost (precision) je stejně důležitá. Přesnost měří, jaký podíl upozornění nástroje skutečně odpovídá OÚ.
Nízká přesnost je nákladná. Systém s 95% úplností a 22,7% přesností zachytí většinu OÚ. Přesto na každou skutečnou entitu OÚ, kterou označí, připadají 3,4 chybná upozornění. V datové sadě s 10 000 skutečnými entitami OÚ takový systém vygeneruje přibližně 44 000 upozornění. Asi 34 000 z nich bude nesprávných. Každé z nich stojí čas na přezkoumání nebo způsobuje nadměrné redigování.
To je daň za falešně pozitivní nálezy. Jde o režijní náklady, které každý tým platí za provoz systému s vysokou úplností a nízkou přesností ve velkém měřítku. Přímý náklad je čas recenzentů. Nepřímý náklad je horší: nadměrně redigované dokumenty skrývají užitečná data, zpomalují práci a oslabují důvěru v nástroj.
Co ukazuje issue #1071 projektu Presidio
GitHub diskuse #1071 projektu Microsoft Presidio (2024) dokumentuje konkrétní vzorec. Detektory TFN (australské daňové číslo) a PCI využívají validaci kontrolního součtu. Čísla, která kontrolním součtem projdou, obdrží skóre 1,0 — maximální důvěru. Žádný kontext PII není vyžadován.
Příčina: kontrola kontextových slov probíhá po kroku kontrolního součtu, nikoli před ním. Číslo, které projde kontrolním součtem, získá nejvyšší skóre bez ohledu na okolní text. Ve finančních tabulkách, vědeckých datových sadách nebo souborech protokolů to zahlcuje výstup chybnými upozorněními. Filtrování prahovou hodnotou skóre situaci nenapraví. Skóre jsou již na maximu.
Druhý vzorec se objevuje v issue #999 projektu Presidio. Segmentace německých slov selhává na složeninách. Slova jako Bundesbehörde (spolkový úřad) mohou být nesprávně rozdělena a označena jako osobní jména. To přidává šum do jakéhokoli německy psaného dokumentu.
Problém 22,7% přesnosti
Alvaro a kol. (2024) testovali Presidio na vícejazyčných podnikových datových sadách. Zjistili 22,7% přesnost. Ve skutečných dokumentech je méně než každé čtvrté upozornění Presidia skutečnou entitou OÚ. To odpovídá zkušenostem odborníků z praxe. Nástroj laděný pouze na úplnost produkuje příliš mnoho šumu pro produkční nasazení.
Studie DICOM z roku 2024 ukázala, že zvýšení score_threshold na 0,7 stále zanechávalo chybná upozornění v 38 z 39 lékařských snímků. Práh, který eliminuje šum v jednom typu dokumentu, způsobuje přehlédnuté detekce v jiném.
Tento problém se netýká výhradně Presidia. Jakýkoli pevný práh vynucuje kompromis. Vysoký práh snižuje šum, ale zvyšuje počet přehlédnutých nálezů. Nízký práh zvyšuje úplnost, ale nafukuje počet upozornění.
Skórování s ohledem na kontext
Řešením je skórování důvěry zohledňující kontext. Místo hodnocení pouze na základě shody vzoru systém zvyšuje důvěru, když se v blízkosti shody nacházejí kontextová slova. Naopak snižuje skóre, pokud kontext chybí.
Pro detekci TFN: slova jako „tax file number“, „TFN“ nebo „Australian tax“ v blízkosti čísla zvyšují jeho skóre. Číslo, které projde kontrolním součtem, ale nemá v okolí žádná kontextová slova, skóruje pod prahem přezkoumání. Nepodložené upozornění je potlačeno.
Pro mezinárodní šum: typy entit vázané na konkrétní země lze omezit na dokumenty v odpovídajícím jazyce. Detektor TFN omezený na angličtinu a australskou angličtinu eliminuje šum. Spuštění na německém obsahu bez tohoto omezení je zdrojem problému.
Třetí vrstvou hybridního systému je transformerový model. Čte celé kontextové okno kolem každého kandidáta. Rozlišuje „Jan Novák, ID pacienta 12345“ od produktového kódu, který odpovídá vzoru jména. Kontext řeší nejednoznačnost, kterou regulární výrazy ani kontrolní součty nedokáží vyřešit.
Podívejte se, jak třívrstvý detekční engine zvládá přesnost ve velkém měřítku. Průvodce vícejazyčnou detekcí OÚ vysvětluje, jak mezinárodní šum ovlivňuje soulad s GDPR.
Praktické kroky
Před nasazením jakéhokoli nástroje pro detekci OÚ změřte jeho přesnost — nejen úplnost.
Spusťte nástroj na sadu dokumentů se známými OÚ i bez nich. Spočítejte upozornění v obou skupinách. Vypočítejte true_positives / (true_positives + false_positives). Toto číslo odhalí zátěž přezkoumávání ještě před zahájením nasazení.
Pro týmy již používající Presidio je analýza distribuce skóre rychlou cestou vpřed. Exportujte vzorek detekcí s jejich skóre důvěry. Spočítejte, kolik z nich skóruje pod 0,6, 0,7 a 0,8. Velký podíl upozornění s vysokým skóre v čistém textu signalizuje problém s kontextem, nikoli s prahem. Přehled bezpečnostního souladu vysvětluje, jak to zdokumentovat v DPIA.
Zdroje
- GitHub diskuse Microsoft Presidio #1071: Systematické falešně pozitivní nálezy
- GitHub issue Microsoft Presidio #999: Vzory falešně pozitivních nálezů v němčině
- Alvaro a kol. (2024): Přesnost Presidia na vícejazyčných podnikových datových sadách.
- Analýza prahové hodnoty skóre DICOM — komunita Microsoft Presidio.