Presidio 22,7% Precizitātes Problēma: Kāpēc Viltus Pozitīvie Iznīcina Redaktsijas Rezultātus
Microsoft Presidio ir viena no populārākajām atvērtā koda PII detektēšanas bibliotēkām. Tomēr masīvā ražošanas lietošana parādīja svarīgu problēmu: Presidio ziņo par 22,7% viltus pozitīviem lielajos datu kopumos.
Kas ir Viltus Pozitīvs?
Viltus pozitīvs ir gadījums, kad rīks kaut ko redakts vai masķē, bet tas NAV personīgi dati.
Piemēri:
- "Prezidents nodeva runu" → Presidio redakts "Prezidents" kā PERSON (tas nav vārds, tas ir amats)
- "Jaunā Juraba āķis" → Redakts "Juraba" kā LOCATION (tas ir vārds, nevis vieta)
- "CV skaits: 192837" → Redakts "192837" kā CREDIT_CARD (tas ir savukārt skaitlis, nevis PII)
Sarežģītas problēmas:
-
Valodu nozīme: Vārdi "Marija" (vārds), "marija" (darbības vārds, lai kādu apņemtu ar mariju — fiktīvs piemērs), "Marija-Doroteja" (salikts vārds)
-
Konteksts: "Johnson" ir vienmēr uzvārds? Nē, tas var būt "Johnson Manufacturing" (uzņēmums)
-
Modelis skaņa: Presidio izmanto dažādus modeļus:
- Regex detektēšana: Parastie izteicieni (piemēram, CC nr regex)
- NLP modeļi: spaCy NER (vārds faktori)
- Entropy noteikumi: Statiskajos datos (IP adreses)
Problēma: Šis kombinācija rada visvisrūpniecības 22,7% viltus pozitīvus.
Redaktsijas Ietekme
Redakcijai, kuriem ir svarīga patiesa informācija, 22,7% viltus pozitīvi ir katastrofāli:
-
Juridiskas riski: Nejaušu redakoju lietas dokuments. Tiesa domā, ka noslēpumainais teksts ir PII, bet tā ir svarīga juridiska frāze.
-
Medicīniskas riski: Mediķis redakts nedraudzīgu slimības nosaukumu (piemēram, "Apophenia", kas ir psihiatriska kondīcija), domājot, ka tā ir PII. Tūlīt tiek zaudēta medicīniskas informācijas nozīme.
-
Manuālas pārskatīšanas izmaksas: Ja jums ir 100 000 dokumentu un 22,7% no tiem ir viltus pozitīvi, jums ir jāpārskata 22 700 dokumenti, lai noņemtu redakciju. Izmaksas:
- €50 per dokumentu (nosūtīt tūlīt advokātam/mediķim)
- €50 × 22,700 = €1.135.000
Ieteikumi
-
Izmantojiet Presidio ar ļoti augstiem slieksņiem: Jūs vēlaties mazāk detektēšanu, bet ar augstāku precizitāti
nlp_engine.load_spacy_model("en_core_web_lg") configuration.nlp_engine_name = "spacy" configuration.default_score = 0.95 # 95% uzticamība vietā 0.5 -
Manuāli pārbaudiet visus redakcinius: Es zinu, ka ir dārgi. Bet pēc tam:
- Izmantojiet feedback loop (saki Presidio, ka tas bija viltus pozitīvs)
- Modeļi uzlabojās
-
Apsvērt alternatīvas:
- anonym.legal: Labāka precizitāte (98% vietā 77.3%)
- Nightfall DLP: Enterprise PII detektēšana ar tūkstošiem noteikumu
- OpenText: Redakciski iespējamības ar manuālu pārskatīšanu
-
Redakciski pēc dokumentu tipa: Juridiskas dokumenti ≠ medicīniskas dokumenti. Izveidojiet atšķirīgas konfigurācijas.