Presidio 22,7% täpsusega probleem: Miks valenegatiivid hävitavad teie anonüümsuse tulemused
Valte positiivid isikuandmete tuvastamises pole väike häire. Kui 77,3% sellest, mida teie tööriist "isikunimedena" märgib, pole isikuandmed, siis te ei kaitse privaatsust — te hävitate andmeid.
- aasta võrdlusuuringus uuriti Microsofti Presidio vaikimisi NER (Named Entity Recognition) mudeli täpsust äridokumentide kontekstis: finantsväljaanded, kliendi kirjavahetus, tootedokumentatsioon ja tugiteadete. Tulemus: 22,7% täpsus isikutuvastamisel.
See tähendab, et 100 tuvastusest, mis on märgitud kui isikud:
- 23 on tegelikud isikud (õigesti tuvastatud)
- 77 on vale positiivid (toote nimed, ettevõtte nimed, kohanimi, kaubamärgi mainimised)
Miks see juhtub
Presidio vaikimisi isikutuvastaja kasutab spaCy en_core_web_lg mudeli NER tuvastamiseks. Seda mudelit treeniti peamiselt uudiste tekstil — kus enamik omastaatusega nimesid on tegelikult inimesed, organisatsioonid või kohad, mida uudised käsitlevad.
Äridokumendid on erinevad:
Toote nimed, mis näevad välja nagu isikud:
- "Apple iPhone 15 Pro saadetised..." → märgistatud PERSON-ina
- "Samsung Galaxy Tab" → märgistatud PERSON-ina
- "Cisco Meraki juurutamine" → märgistatud PERSON-ina
Ettevõtte nimed isikunimi struktuuriga:
- "Johnson Controls kvartaliavaldus" → "Johnson" märgistatud PERSON-ina
- "Goldman Sachs portfoolio" → "Goldman" märgistatud PERSON-ina
- "BlackRock investeerimistees" → märgistatud PERSON-ina
Kohanimi sarnased nimesed:
- "Paris Hilton stiilireklaam" → Pariisius tuvastamine, seejärel Hilton
- "Apple Cupertino peakontor" → Apple ja Cupertino'st märgistamine
- "Texas Instruments komponendid" → Texas ja Instruments märgistamine
Valenegatiivid finantsdokumentides
SpaCy en_core_web_lg ei tunne:
- Ettevõtte juhtide nimesid külaliste sisepaikides: CEO-de, juhatuse liikmeteks ja välisaudit ellus mainimised jäävad märkimata, eriti kui neid kasutatakse võrdlusesuhetes
- Konsultantide ja teostajate nimesid lepingutes: "Dr. Sarah Chen consulting services" — Sarah võib tuvastada, kuid perekonnanimi varieeritakse
- Ajaloolisi üksikisikuid: "Benjamin Franklin loans" — Benjamini tuvastab mõnikord, Franklini seevastu ei pruugi
Kuidas hübriidtuvastus lahendab seda
Hübriidtuvastus ühendab:
- Konteksti-teadlik filtreerimine: Isikutuvastuse tulemusi filtreeritakse vastu dokumentikeskkonnas esinevate muude omastaatusega nimede otsingutega (ettevõtte nimed, tooted, kohanimed)
- Konfidentsuse skoor: Tulemusi järjestatakse kindluse alusel, väga madalakindel tuvastamine märgistatakse inimese ülevaatamisele
- Domeenispetsiifilised recognizerid: Finantsandmete jaoks — kuupäevad, rahale viitavad summad ja aktsiatähed filtreeruvad inimtuvastusest
Allikad: