Problemi natančnosti
Primerjava scenarijev: podjetje fintech v Londonu obdeluje 1 milion strank, vsak z namenom podatkov o stanju računa (18,75 £ povprečje za redakcijo).
Orodje 70 % natančnosti:
- Zazna 700 000 resničnih PII
- Ustvari 300 000 lažnih pozitivnih rezultatov
- Skupaj: 1.000.000 redakcij
- Stroški: £18.75M
Orodje 95 % natančnosti:
- Zazna 700 000 resničnih PII
- Ustvari 36 842 lažnih pozitivnih rezultatov
- Skupaj: 736 842 redakcij
- Stroški: £13.8M
Razlika: £4.95M v enem samem scenariju.
Koristi za pravno državo
Boston Legal Review: arbitražna prizivna sodišča so zavrnila redakcije zaradi prekrivanja upravičenih podatkov z lažnimi pozitivnimi. Oba primera sta povzročila plačila po 7,5 milijona dolarjev za pregled.
Lažni pozitivni rezultati vsebujejo:
- Upravičeni podatki imenske osebe, telefone, naslove
- Nenamerne redakcije – podatki, ki jih je treba razkriti
- Povečano tveganje naročanja GDPR
Razlika v odpravi
Pristop 1: Redakcija vseh zaznav
- Čas: O(n) z višjo konstanto za redakcijo
- Tveganje: Presežek podatkov
Pristop 2: Prag zaupanja
- Samo zazna zaupanje > 95 %
- Zmanjšanje lažnih pozitivnih rezultatov
- Povečanje lažnih negativnih rezultatov
Podjetja jih obično kombinirajo: avtomatska redakcija z 95 % zaupanjem, ročni pregled za 50-95 % zaupanje, ne redakcija za < 50 %.
Kako izboljšati natančnost?
- Domenska usposobljenost: Modeli, usposobljeni posebej za fintech, zdravstvo, pravno državo
- Zapiralni aparati: GDPR, HIPAA, ISO 27001 specifični koncepti
- Logika konteksta: Telefon v finančnemu zagotavljanju je drugačen od ločenega imena
- Hibridni pristop: ML + regex + slovar za znane vrste
Zaključek
Natančnost ni samo tehnična metrika—to je stroški. 95 % natančnost prihrani milijone.