Problém falešně pozitivních výsledků v Presidio
Microsoft Presidio je výkonný open-source NER engine. Ale nasazení bez fine-tuningu pro specifické domény způsobuje vysoké falešně pozitivní sazby – falešné identifikace ne-PII textu jako PII.
Testování ve dvou klíčových sektorech ukazuje závažné dopady.
Výsledky testů: Právní dokumenty
Testovací datová sada: 500 smluv (anglické, německé, francouzské)
| Entita | Skutečně pozitivní | Falešně pozitivní | FP sazba |
|---|---|---|---|
| PERSON | 1,240 | 287 | 18,8% |
| ORG | 890 | 201 | 18,4% |
| DATE | 2,100 | 156 | 6,9% |
| MONEY | 445 | 67 | 13,1% |
| PHONE | 312 | 23 | 6,9% |
Celková falešně pozitivní sazba: 16,3%
Co způsobuje právní FP
PERSON false positives:
- „Zákon č. 101/2000 Sb." → PERSON (čísla detekována jako personalia)
- „Paragraf 3a" → potenciálně PERSON
- „Doložka XV." → ORG nebo LOC nesprávně
ORG false positives:
- Zkratky jako „s.r.o.", „a.s." detekované jako části organizačního jména
- Zákonné citace s velkými písmeny
Výsledky testů: Zdravotnické dokumenty
Testovací datová sada: 300 propouštěcích zpráv
| Entita | Skutečně pozitivní | Falešně pozitivní | FP sazba |
|---|---|---|---|
| PERSON | 850 | 196 | 18,7% |
| DATE | 1,820 | 128 | 6,6% |
| PHONE | 234 | 45 | 16,1% |
| GPE | 445 | 167 | 27,3% |
| AGE | 312 | 89 | 22,2% |
Celková falešně pozitivní sazba: 18,2%
Co způsobuje zdravotnické FP
PHONE false positives:
- Klinické kódy (ICD-10): „I10" může vypadat jako telefonní číslo prefix
- Laboratorní referenční rozsahy: „120-80" pro krevní tlak
- Lékové dávky: „100mg 3x denně"
GPE false positives:
- Anatomická umístění: „levá strana", „subkutánní"
- Procedurální popis: „oblasti operace"
Finanční dopady falešně pozitivních výsledků
Pro organizaci zpracovávající 10,000 dokumentů měsíčně:
Přímé náklady manuálního přezkumu
| Kategorie | Výpočet | Náklady/měsíc |
|---|---|---|
| FP identifikace (16% FP sazba) | 10,000 dok × 50 entit × 0,16 | 80,000 FP za měsíc |
| Čas přezkumu na FP | 80,000 × 30 sekund | 667 hodin |
| Hodinová sazba analytika | 667 h × $65 | $43,355 |
| Roční přímé náklady | $520,260 |
Nepřímé náklady
- Zpomalení procesu: FP způsobují průměrné zpoždění 2-3 dny na případ
- Únava přezkumu: Vysoký FP způsobuje analytiky přehlédnout skutečné PII
- Frustrace uživatelů: Zaměstnanci začnou ignorovat varování
Srovnání: Vanilla Presidio vs. anonym.legal
| Metrika | Vanilla Presidio | anonym.legal |
|---|---|---|
| Právní FP sazba | 16,3% | 3,7% |
| Zdravotnická FP sazba | 18,2% | 4,2% |
| Čas manuálního přezkumu | 667 h/měsíc | 152 h/měsíc |
| Roční úspora nákladů | – | $390,000+ |
Jak anonym.legal snižuje falešně pozitivní výsledky
1. Doménový fine-tuning
Modely trénovány specificky na právních a zdravotnických textech, kde standardní NLP modely způsobují nejvíce FP.
2. Kontextové filtry
- Klinické kódy (ICD-10, CPT) jsou whitelistovány jako non-PII
- Zákonné citace jsou rozpoznány jako citace, ne jako PII
- Anatomická terminologie je vyloučena z GPE detekce
3. Nastavitelné prahy
Správci mohou nastavit prahy spolehlivosti pro každou entitu:
- Vyšší prah = méně FP, ale více FN (miss)
- Nižší prah = více FP, ale méně FN (vyšší pokrytí)
4. Whitelist/Blacklist
- Whitelist: Termíny nikdy nedetekované jako PII (zákonné zkratky, klinické kódy)
- Blacklist: Termíny vždy detekované jako PII (specifická organizační ID)
Závěr
Falešně pozitivní výsledky nejsou pouze technická metrika – reprezentují skutečné provozní náklady a bezpečnostní riziko (únava přezkumu způsobuje miss skutečné PII).
Pro organizace zpracovávající více než 1,000 dokumentů měsíčně, rozdíl 12-15 procentních bodů ve FP sazby mezi vanilla Presidio a fine-tuned řešeními představuje stovky tisíc dolarů ročně.