Atpakaļ uz BloguTehniskā

Presidio 22,7% Precizitātes Problēma...

Microsoft Presidio skaņas detektors rata 22,7% viltus pozitīvu vērtības: parastais vārds tiek uzņemts kā personiski dati.

April 21, 20267 min lasīšanai
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio 22,7% Precizitātes Problēma: Kāpēc Viltus Pozitīvie Iznīcina Redaktsijas Rezultātus

Microsoft Presidio ir viena no populārākajām atvērtā koda PII detektēšanas bibliotēkām. Tomēr masīvā ražošanas lietošana parādīja svarīgu problēmu: Presidio ziņo par 22,7% viltus pozitīviem lielajos datu kopumos.

Kas ir Viltus Pozitīvs?

Viltus pozitīvs ir gadījums, kad rīks kaut ko redakts vai masķē, bet tas NAV personīgi dati.

Piemēri:

  1. "Prezidents nodeva runu" → Presidio redakts "Prezidents" kā PERSON (tas nav vārds, tas ir amats)
  2. "Jaunā Juraba āķis" → Redakts "Juraba" kā LOCATION (tas ir vārds, nevis vieta)
  3. "CV skaits: 192837" → Redakts "192837" kā CREDIT_CARD (tas ir savukārt skaitlis, nevis PII)

Sarežģītas problēmas:

  1. Valodu nozīme: Vārdi "Marija" (vārds), "marija" (darbības vārds, lai kādu apņemtu ar mariju — fiktīvs piemērs), "Marija-Doroteja" (salikts vārds)

  2. Konteksts: "Johnson" ir vienmēr uzvārds? Nē, tas var būt "Johnson Manufacturing" (uzņēmums)

  3. Modelis skaņa: Presidio izmanto dažādus modeļus:

    • Regex detektēšana: Parastie izteicieni (piemēram, CC nr regex)
    • NLP modeļi: spaCy NER (vārds faktori)
    • Entropy noteikumi: Statiskajos datos (IP adreses)

Problēma: Šis kombinācija rada visvisrūpniecības 22,7% viltus pozitīvus.

Redaktsijas Ietekme

Redakcijai, kuriem ir svarīga patiesa informācija, 22,7% viltus pozitīvi ir katastrofāli:

  1. Juridiskas riski: Nejaušu redakoju lietas dokuments. Tiesa domā, ka noslēpumainais teksts ir PII, bet tā ir svarīga juridiska frāze.

  2. Medicīniskas riski: Mediķis redakts nedraudzīgu slimības nosaukumu (piemēram, "Apophenia", kas ir psihiatriska kondīcija), domājot, ka tā ir PII. Tūlīt tiek zaudēta medicīniskas informācijas nozīme.

  3. Manuālas pārskatīšanas izmaksas: Ja jums ir 100 000 dokumentu un 22,7% no tiem ir viltus pozitīvi, jums ir jāpārskata 22 700 dokumenti, lai noņemtu redakciju. Izmaksas:

    • €50 per dokumentu (nosūtīt tūlīt advokātam/mediķim)
    • €50 × 22,700 = €1.135.000

Ieteikumi

  1. Izmantojiet Presidio ar ļoti augstiem slieksņiem: Jūs vēlaties mazāk detektēšanu, bet ar augstāku precizitāti

    nlp_engine.load_spacy_model("en_core_web_lg")
    configuration.nlp_engine_name = "spacy"
    configuration.default_score = 0.95  # 95% uzticamība vietā 0.5
    
  2. Manuāli pārbaudiet visus redakcinius: Es zinu, ka ir dārgi. Bet pēc tam:

    • Izmantojiet feedback loop (saki Presidio, ka tas bija viltus pozitīvs)
    • Modeļi uzlabojās
  3. Apsvērt alternatīvas:

    • anonym.legal: Labāka precizitāte (98% vietā 77.3%)
    • Nightfall DLP: Enterprise PII detektēšana ar tūkstošiem noteikumu
    • OpenText: Redakciski iespējamības ar manuālu pārskatīšanu
  4. Redakciski pēc dokumentu tipa: Juridiskas dokumenti ≠ medicīniskas dokumenti. Izveidojiet atšķirīgas konfigurācijas.

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.