anonym.legal
Nazaj na blogTehnično

Davek na lažne pozitivne rezultate: Zakaj je problem...

Orodja za zaznavo osebnih podatkov s 70 % natančnostjo redkeje redakcije povzročajo masivne stroške — zmanjšane izkupičke redakcije...

April 3, 20268 min branja
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Problemi natančnosti

Primerjava scenarijev: podjetje fintech v Londonu obdeluje 1 milion strank, vsak z namenom podatkov o stanju računa (18,75 £ povprečje za redakcijo).

Orodje 70 % natančnosti:

  • Zazna 700 000 resničnih PII
  • Ustvari 300 000 lažnih pozitivnih rezultatov
  • Skupaj: 1.000.000 redakcij
  • Stroški: £18.75M

Orodje 95 % natančnosti:

  • Zazna 700 000 resničnih PII
  • Ustvari 36 842 lažnih pozitivnih rezultatov
  • Skupaj: 736 842 redakcij
  • Stroški: £13.8M

Razlika: £4.95M v enem samem scenariju.

Koristi za pravno državo

Boston Legal Review: arbitražna prizivna sodišča so zavrnila redakcije zaradi prekrivanja upravičenih podatkov z lažnimi pozitivnimi. Oba primera sta povzročila plačila po 7,5 milijona dolarjev za pregled.

Lažni pozitivni rezultati vsebujejo:

  • Upravičeni podatki imenske osebe, telefone, naslove
  • Nenamerne redakcije – podatki, ki jih je treba razkriti
  • Povečano tveganje naročanja GDPR

Razlika v odpravi

Pristop 1: Redakcija vseh zaznav

  • Čas: O(n) z višjo konstanto za redakcijo
  • Tveganje: Presežek podatkov

Pristop 2: Prag zaupanja

  • Samo zazna zaupanje > 95 %
  • Zmanjšanje lažnih pozitivnih rezultatov
  • Povečanje lažnih negativnih rezultatov

Podjetja jih obično kombinirajo: avtomatska redakcija z 95 % zaupanjem, ročni pregled za 50-95 % zaupanje, ne redakcija za < 50 %.

Kako izboljšati natančnost?

  1. Domenska usposobljenost: Modeli, usposobljeni posebej za fintech, zdravstvo, pravno državo
  2. Zapiralni aparati: GDPR, HIPAA, ISO 27001 specifični koncepti
  3. Logika konteksta: Telefon v finančnemu zagotavljanju je drugačen od ločenega imena
  4. Hibridni pristop: ML + regex + slovar za znane vrste

Zaključek

Natančnost ni samo tehnična metrika—to je stroški. 95 % natančnost prihrani milijone.

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.