Dan falošnych pozitívov v nastrojoch na detekciu PII
Aktualizované pre rok 2026
Väčšina nástrojov na PII je hodnotená podla navratnosti (recall). Navratnost meria, aky podiel skutočnej PII nastroj nájde. Ale preciznost (precision) je rovnako dolezita. Preciznost meria, aky podiel upozorneni nástroja zodpoveda skutočnej PII.
Nizka preciznost je nakladna. Systém s 95-percentnou navratnostou a 22,7-percentnou preciznostou zachytí väčšinu PII. No na každu skutocnu entitu PII, ktoru označi, vydá aj 3,4 nesprávnych upozorneni. V datasete s 10 000 skutočnymi entitami PII tento systém vyvolá asi 44 000 upozorneni. Pribline 34 000 z nich je nespravnych. Každe stoji čas na kontrolu alebo spôsobuje nadmernú redakciu.
Toto je dan falošnych pozitívov. Je to réžia, ktoru každy tím plati pri prevadzkovaní systému s vysokou navratnostou a nizkou preciznostou vo veľkom meradle. Priamy náklad je čas kontrolóra. Nepriamy náklad je horší: nadmerne zredigované dokumenty skryvaju uzitocné data, spomaluju pracu a oslabuju dôveru k nastroju.
Co ukazuje Presidio issue č. 1071
Diskusia na GitHub pre Microsoft Presidio č. 1071 (2024) zaznamenáva konkrétny vzorec. Rozpoznávače TFN (Tax File Number) a PCI pouzívaju overovanie kontrolnym súčtom. Čísla, ktore prejdu kontrolnym súčtom, dostávaju skore 1,0 — maximálnu istotu. Nevyzaduje sa ziadny kontext PII.
Korenova pricina: kontrola kontextového slova prebieha po kroku kontrolného súčtu, nie pred nim. Číslo, ktore prejde kontrolnym súčtom, dostane najvyssie skore bez ohľadu na okolitý text. Vo financnych tabuľkach, vedeckych datasetoch alebo súboroch log toto zaplavuje vystup nesprávnymi upozorneniami. Filtrovanie prahom skore to nemoze opravit. Skore su uz na maxime.
Druhy vzorec sa objavuje v Presidio issue č. 999. Segmentácia nemeckych slov sa rozpadá pri zložených podstatnych menách. Slová ako Bundesbehörde (federálny úrad) môžu byt nesprávne rozdelene a oznacene ako osobné mena. Toto pridáva šum do akéhokoľvek nemeckého dokumentu.
Problem 22,7-percentnej preciznosti
Alvaro et al. (2024) testovali Presidio na zmiešaných podnikových datasetoch. Zistili 22,7-percentnu preciznost. V skutočnych dokumentoch menej ako jedno zo štyroch upozorneni Presidio je skutočná entita PII. Toto zodpovedá tomu, co odbornici z praxe hlásia. Nastroj nalaðeny výhradne pre navratnost produkuje pre produkcné použitie prilis vela šumu.
Studia DICOM z roku 2024 ukázala, ze zvýsenie score_threshold na 0,7 stále nechávalo nesprávne upozornenia v 38 zo 39 medicínskych obrázkov. Prah, ktory odstraní šum v jednom type dokumentu, vytvára zmeskané detekcie v inom.
Toto nie je problem iba Presidia. Akykolvek pevny prah vynucuje kompromis. Vysoky prah znizuje šum, ale zvysuje zmeskane detekcie. Nizky prah zvysuje navratnost, ale nafukuje počet upozorneni.
Skorovanie s ohladom na kontext
Opravou je skorovanie istoty s ohladom na kontext. Namiesto skorovania zalozeného iba na zhode vzoru systém zvysuje istotu, ked sa v blízkosti zhody objavuju kontextové slová. Tiez znizuje skore, ked kontext chyba.
Pre detekciu TFN: slová ako "tax file number," "TFN" alebo "Australian tax" v blízkosti čísla zvysuju jeho skore. Číslo, ktore prejde kontrolnym súčtom, ale nemá blízke kontextové slová, dostane skore pod prah kontroly. Neopodstatněné upozornenie je potlačené.
Pre medzijazyčny šum: typy entít viazané na konkrétne krajiny môžu byt ohraničené na dokumenty v zodpovedajucom jazyku. Detektor TFN ohraničeny na anglicku a australskú anglictinu odstraňuje šum. Spustenie na nemeckom obsahu bez ohraničenia je zdrojom problemu.
Tretou vrstvou v hybridnom systéme je transformerovy model. Čita celé kontextové okno okolo každeho kandidáta. Rozlisuje "Ján Novák, ID pacienta 12345" od produktoveho kódu, ktory zodpovedá vzoru mena. Kontext resolves nejednoznačnost, ktoru regex a kontrolné súčty nemozu vyriesiť.
Pozrite, ako trojvrstvový detekčný engine zvládá preciznost vo veľkom meradle. Pruvodca viacjazyčnou detekciou PII pokryva, ako medzijazyčny šum ovplyvňuje dodrzanie GDPR.
Prakticke kroky
Pred nasadením akéhokoľvek PII nástroja zmerajte jeho preciznost — nielen navratnost.
Spustite nastroj na sade dokumentov so znamou PII a znamou non-PII. Spočitajte upozornenia v oboch skupinách. Vypočitajte true_positives / (true_positives + false_positives). Toto číslo odhaluje záťaž na kontrolóra pred tým, ako sa zaväzete k nasadeniu.
Pre tímy uz pouzívajúce Presidio je analýza distribúcie skóre rychlou cestou. Exportujte vzorku detekcií s ich skóre istoty. Spočítajte, kolko skóruje pod 0,6, 0,7 a 0,8. Velky podiel upozornení s vysokym skóre v cistom texte signalizuje medzeru v kontexte, nie problem prahovania. Prehlad bezpecnostného dodrziavania vysvetľuje, ako toto zdokumentovat v DPIA.
Zdroje
- Microsoft Presidio GitHub Discussion č. 1071: systematické falošné pozitívy
- Microsoft Presidio GitHub Issue č. 999: vzory falošnych pozitívov v nemeckom jazyku
- Alvaro et al. (2024): Preciznost Presidia na zmiešaných podnikových datasetoch.
- Analýza prahu skóre DICOM — komunita Microsoft Presidio.