Vissza a BlograTechnikai

A hamis pozitívum adó: Miért kerül több annál...

A Presidio GitHub issue #1071 szisztematikus hamis pozitívumokat dokumentál. Egy 2024-es tanulmány 22,7%-os precizitást talált vegyes nyelvű...

April 3, 20268 perc olvasás
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

A hamis pozitívum megfelelőségi adó

Az automatizálás ROI-ját egyszerűen számolják: automatizált feldolgozás helyettesíti a manuális munkát. De a modell összeomlás, ha a hamis pozitívumok nagyok.

A számítás

Automatizált munkamenet (10 000 dokumentum):
- Alapszerkesztési idő megtakarítva: 95%
- Hamis pozitívumok generálva: 22% = 2 200 hamis pozitívum
- Hamis pozitívum felülvizsgálati idő: 2 200 × 3 perc = 110 óra
- Felülvizsgálati idő ára: 110 × 200 $/óra = 22 000 $

vs. 10 000 dokumentum manuálisan: 83 000 $
ROI: 61 000 $ megtakarítás (vs. tervezett 80 000 $)

A 22%-os hamis pozitívum arány a tervezett ROI-t 61%-ra csökkenti.

A Presidio hamis pozitívum mintái

A GitHub issue #1071 dokumentálja a Presidio általi következetes hamis pozitívumokat:

  • Névmások jelölve PERSON-ként: „She", „He", „They"
  • Hajónevek és cégnév-szavak jelölve PERSON-ként
  • Köznyelvi kifejezések jelölve PERSON-ként kontextus nélkül

A pontossági megoldás: Konfidencia + szótár-kizárás

Az anonym.legal precizitás-javítása:

  1. Konfidencia-küszöb: Az alacsony konfidenciájú észlelések jelölése felülvizsgálatra, nem automatikus szerkesztés
  2. Szótár-kizárás: Ismert nem-PII szavak (hajónevek, foglalkozások, helyneveket stb.) kizárhatók
  3. Kontextuális megerősítés: A PII körüli kontextus érvényesíti az észlelést

Következtetés

A pontossági probléma nem elméleti – közvetlen pénzügyi következményei vannak az automatizálás ROI-ra. A magas precizitású eszközök (alacsony hamis pozitívum) teljes mértékben realizálják a megtakarítást.

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.