Zpět na blogTechnické

Presidio falešně pozitivní výsledky...

Presidio vanilla má 18-22% falešně pozitivní sazbu v právních a zdravotnických dokumentech.

March 23, 20268 min čtení
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Problém falešně pozitivních výsledků v Presidio

Microsoft Presidio je výkonný open-source NER engine. Ale nasazení bez fine-tuningu pro specifické domény způsobuje vysoké falešně pozitivní sazby – falešné identifikace ne-PII textu jako PII.

Testování ve dvou klíčových sektorech ukazuje závažné dopady.

Výsledky testů: Právní dokumenty

Testovací datová sada: 500 smluv (anglické, německé, francouzské)

EntitaSkutečně pozitivníFalešně pozitivníFP sazba
PERSON1,24028718,8%
ORG89020118,4%
DATE2,1001566,9%
MONEY4456713,1%
PHONE312236,9%

Celková falešně pozitivní sazba: 16,3%

Co způsobuje právní FP

PERSON false positives:

  • „Zákon č. 101/2000 Sb." → PERSON (čísla detekována jako personalia)
  • „Paragraf 3a" → potenciálně PERSON
  • „Doložka XV." → ORG nebo LOC nesprávně

ORG false positives:

  • Zkratky jako „s.r.o.", „a.s." detekované jako části organizačního jména
  • Zákonné citace s velkými písmeny

Výsledky testů: Zdravotnické dokumenty

Testovací datová sada: 300 propouštěcích zpráv

EntitaSkutečně pozitivníFalešně pozitivníFP sazba
PERSON85019618,7%
DATE1,8201286,6%
PHONE2344516,1%
GPE44516727,3%
AGE3128922,2%

Celková falešně pozitivní sazba: 18,2%

Co způsobuje zdravotnické FP

PHONE false positives:

  • Klinické kódy (ICD-10): „I10" může vypadat jako telefonní číslo prefix
  • Laboratorní referenční rozsahy: „120-80" pro krevní tlak
  • Lékové dávky: „100mg 3x denně"

GPE false positives:

  • Anatomická umístění: „levá strana", „subkutánní"
  • Procedurální popis: „oblasti operace"

Finanční dopady falešně pozitivních výsledků

Pro organizaci zpracovávající 10,000 dokumentů měsíčně:

Přímé náklady manuálního přezkumu

KategorieVýpočetNáklady/měsíc
FP identifikace (16% FP sazba)10,000 dok × 50 entit × 0,1680,000 FP za měsíc
Čas přezkumu na FP80,000 × 30 sekund667 hodin
Hodinová sazba analytika667 h × $65$43,355
Roční přímé náklady$520,260

Nepřímé náklady

  • Zpomalení procesu: FP způsobují průměrné zpoždění 2-3 dny na případ
  • Únava přezkumu: Vysoký FP způsobuje analytiky přehlédnout skutečné PII
  • Frustrace uživatelů: Zaměstnanci začnou ignorovat varování

Srovnání: Vanilla Presidio vs. anonym.legal

MetrikaVanilla Presidioanonym.legal
Právní FP sazba16,3%3,7%
Zdravotnická FP sazba18,2%4,2%
Čas manuálního přezkumu667 h/měsíc152 h/měsíc
Roční úspora nákladů$390,000+

Jak anonym.legal snižuje falešně pozitivní výsledky

1. Doménový fine-tuning

Modely trénovány specificky na právních a zdravotnických textech, kde standardní NLP modely způsobují nejvíce FP.

2. Kontextové filtry

  • Klinické kódy (ICD-10, CPT) jsou whitelistovány jako non-PII
  • Zákonné citace jsou rozpoznány jako citace, ne jako PII
  • Anatomická terminologie je vyloučena z GPE detekce

3. Nastavitelné prahy

Správci mohou nastavit prahy spolehlivosti pro každou entitu:

  • Vyšší prah = méně FP, ale více FN (miss)
  • Nižší prah = více FP, ale méně FN (vyšší pokrytí)

4. Whitelist/Blacklist

  • Whitelist: Termíny nikdy nedetekované jako PII (zákonné zkratky, klinické kódy)
  • Blacklist: Termíny vždy detekované jako PII (specifická organizační ID)

Závěr

Falešně pozitivní výsledky nejsou pouze technická metrika – reprezentují skutečné provozní náklady a bezpečnostní riziko (únava přezkumu způsobuje miss skutečné PII).

Pro organizace zpracovávající více než 1,000 dokumentů měsíčně, rozdíl 12-15 procentních bodů ve FP sazby mezi vanilla Presidio a fine-tuned řešeními představuje stovky tisíc dolarů ročně.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.