Binaarse tuvastamise piiritus
Igaühel PII tuvastamise süsteemil on põhimõtteline väljakutse: sama string võib olla isikuandmed ühes kontekstis ja mitte teises. "John" kliendi kaebuses on andmeobjekt. "John" viitena John F. Kennedyle ajaloolises dokumendis — mitte. Sotsiaalse turvalisuse number meditsiinilises kirjes on HIPAA identifikaator. Üheksa numbriline tootekood, mis juhtub SSN formaadiga sobima — mitte.
Binaarne tuvastamine — tuvastatud/mitte-tuvastatud lipu — ei saa seda mitmetähenduslikkust esindada. See sunnib kas liigse kustutamise (märkista kõik, mis võib olla isikuandmed) või ebapiisava kustutamise (märgista ainult kõrge kindlusega vastavus). Nõustamise kontekstidele, mis nõuavad kaitsekaid, auditeeritavaid anonüümsuse otsuseid — kumbki valik pole vastuvõetav.
Usaldusaste annab kesktee: 0-100% usaldusväärsuse väärtus igal tuvastatud olemil, mis võimaldab astmelist otsuste tegemist, inimese ülevaatuse töövoogu ja auditieerimisega dokumenteerimist.
Juriidilise avastamise kasutamisjuht
Juriidiline avastamise anonüümsus on selgesõnaliste nõuetega, mis teevad usaldusväärsuse hindamise valimatuks:
Liigse kustutamise probleem: Advokaat nimed, kohtuotsused, või juriidilised viited valesti kustutamine rikub dokumentide tõendamisväärtust. Kohtud on nelinud advokannte liigse kustutamise eest e-discovery kontekstis — sama kohtuseadus, mis nelineb liiga vähe kustutamise puhul ka liigse kustutamise kohta.
Piisavuse puudumise probleem: Tegelike isikuandmete puudumine loob vastutust: kliendi konfidentsiaalsuse rikkumised, advokatuuri ühingu kaebused ja baaradministratsiooni juhtudel.
Usaldusväärsuse skoor tegevuses
Hübriidtuvastusega relvastatud tuvastussüsteem võiks väljastada:
{
"john_smith": {
"text": "John Smith",
"entity": "PERSON",
"confidence": 0.95
},
"apple_inc": {
"text": "Apple",
"entity": "PERSON",
"confidence": 0.12
},
"morgan_stanley_report": {
"text": "Morgan",
"entity": "PERSON",
"confidence": 0.18
}
}
Inimese ülevaataja näeb ühe ekraanil:
- "John Smith" — 95% kindlusega PERSON → kustu automaatselt
- "Apple" — 12% kindlusega PERSON → jäta kustutamata, see on tootesilt
- "Morgan" — 18% kindlusega PERSON → jäta ülevaatajale käsitsi otsuseks
Auditeeritavus ja juriidilise kaitsega
Konfidentsuse hindamine loob auditeeritud pärimuse jälg:
"Dokumendis X tuvastati ja kustutatakse 12 isiku nime, kõik > 90% kindlusega. Tuvastati 3 võimalikku isiku nime (45-70% kindlusega), mille ülevaataja hindas käsitsi — jäeti kustutamata ettevõtte nimedena. Ülevaatuse järelse kahekordse kontroll näitas 0 valehittusi."
Binaarne süsteem: "Kustutsime 15 nime" — pole informatiivsed, pole auditeeritavad.
Allikad: