Tagasi BlogisseTehniline

Presidio 22,7% täpsusega probleem: Miks...

2024. aasta võrdlus leidis, et Presidio isikutuvastamismoduul saavutab 22,7% täpsuse äridokumentides — tähendades...

April 21, 20267 min lugemist
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio 22,7% täpsusega probleem: Miks valenegatiivid hävitavad teie anonüümsuse tulemused

Valte positiivid isikuandmete tuvastamises pole väike häire. Kui 77,3% sellest, mida teie tööriist "isikunimedena" märgib, pole isikuandmed, siis te ei kaitse privaatsust — te hävitate andmeid.

  1. aasta võrdlusuuringus uuriti Microsofti Presidio vaikimisi NER (Named Entity Recognition) mudeli täpsust äridokumentide kontekstis: finantsväljaanded, kliendi kirjavahetus, tootedokumentatsioon ja tugiteadete. Tulemus: 22,7% täpsus isikutuvastamisel.

See tähendab, et 100 tuvastusest, mis on märgitud kui isikud:

  • 23 on tegelikud isikud (õigesti tuvastatud)
  • 77 on vale positiivid (toote nimed, ettevõtte nimed, kohanimi, kaubamärgi mainimised)

Miks see juhtub

Presidio vaikimisi isikutuvastaja kasutab spaCy en_core_web_lg mudeli NER tuvastamiseks. Seda mudelit treeniti peamiselt uudiste tekstil — kus enamik omastaatusega nimesid on tegelikult inimesed, organisatsioonid või kohad, mida uudised käsitlevad.

Äridokumendid on erinevad:

Toote nimed, mis näevad välja nagu isikud:

  • "Apple iPhone 15 Pro saadetised..." → märgistatud PERSON-ina
  • "Samsung Galaxy Tab" → märgistatud PERSON-ina
  • "Cisco Meraki juurutamine" → märgistatud PERSON-ina

Ettevõtte nimed isikunimi struktuuriga:

  • "Johnson Controls kvartaliavaldus" → "Johnson" märgistatud PERSON-ina
  • "Goldman Sachs portfoolio" → "Goldman" märgistatud PERSON-ina
  • "BlackRock investeerimistees" → märgistatud PERSON-ina

Kohanimi sarnased nimesed:

  • "Paris Hilton stiilireklaam" → Pariisius tuvastamine, seejärel Hilton
  • "Apple Cupertino peakontor" → Apple ja Cupertino'st märgistamine
  • "Texas Instruments komponendid" → Texas ja Instruments märgistamine

Valenegatiivid finantsdokumentides

SpaCy en_core_web_lg ei tunne:

  • Ettevõtte juhtide nimesid külaliste sisepaikides: CEO-de, juhatuse liikmeteks ja välisaudit ellus mainimised jäävad märkimata, eriti kui neid kasutatakse võrdlusesuhetes
  • Konsultantide ja teostajate nimesid lepingutes: "Dr. Sarah Chen consulting services" — Sarah võib tuvastada, kuid perekonnanimi varieeritakse
  • Ajaloolisi üksikisikuid: "Benjamin Franklin loans" — Benjamini tuvastab mõnikord, Franklini seevastu ei pruugi

Kuidas hübriidtuvastus lahendab seda

Hübriidtuvastus ühendab:

  1. Konteksti-teadlik filtreerimine: Isikutuvastuse tulemusi filtreeritakse vastu dokumentikeskkonnas esinevate muude omastaatusega nimede otsingutega (ettevõtte nimed, tooted, kohanimed)
  2. Konfidentsuse skoor: Tulemusi järjestatakse kindluse alusel, väga madalakindel tuvastamine märgistatakse inimese ülevaatamisele
  3. Domeenispetsiifilised recognizerid: Finantsandmete jaoks — kuupäevad, rahale viitavad summad ja aktsiatähed filtreeruvad inimtuvastusest

Allikad:

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.