Valepositiivsete maks isikuandmete tuvastustööriistadel
Uuendatud 2026. aastaks
Enamikku isikuandmete tööriistu hinnatakse meeldetuletamise järgi. Meeldetuletus mõõdab, kui suure osa tegelikust isikuandmest tööriist leiab. Kuid täpsus on sama oluline. Täpsus mõõdab, kui suur osa tööriista hoiatustest on tegelik isikuandmed.
Madal täpsus on kulukas. Süsteem, millel on 95% meeldetuletus ja 22,7% täpsus, tabab enamiku isikuandmetest. Ometi iga tegeliku isikuandmete üksuse kohta, mille ta lipuga märgib, tõstab see ka 3,4 valet hoiatust. Andmekogumis 10 000 tegeliku isikuandmete üksusega käivitab selline süsteem umbes 44 000 hoiatust. Neist umbes 34 000 on valed. Igaüks maksab ülevaatamisel aega või põhjustab üleväljajätmist.
See on valepositiivsete maks. See on üldkulud, mida iga meeskond maksab kõrge meeldetuletuse, madala täpsusega isikuandmete süsteemi suuremahuliselt käitamisel. Otsene kulu on ülevaataja aeg. Kaudne kulu on hullem: liigselt väljajäetud dokumendid peidavad kasulikke andmeid, aeglustavad tööd ja õõnestavad usaldust tööriista vastu.
Mida Presidio probleem #1071 näitab
Microsoft Presidio GitHubi arutelu #1071 (2024) dokumenteerib konkreetse mustri. TFN-i (Tax File Number) ja PCI tunnustajad kasutavad kontrollsumma valideerimist. Numbrid, mis läbivad kontrollsumma, saavad skoori 1,0 - maksimaalne kindlus. Isikuandmete konteksti ei nõuta.
Juurspõhjus: kontekstsõnade kontrollimine töötab pärast kontrollsumma sammu, mitte enne. Number, mis läbib kontrollsumma, saab kõrgeima skoori olenemata ümbritsevast tekstist. Finantstabelites, teadusandmetes või logifailides ujutab see väljundi valede hoiatustega üle. Skoorilävendi filtreerimine ei suuda seda parandada. Skoorid on juba maksimumis.
Teine muster ilmneb Presidio probleemis #999. Saksa sõnasegmenteerimine läheb liitnimisõnade puhul katki. Sõnad nagu Bundesbehorde (föderaalorgan) võivad olla valesti jagatud ja märgistatud isikanimedena. See lisab müra igas saksakeelses dokumendis.
22,7% täpsuse probleem
Alvaro jt (2024) testisid Presidiot segakeelsetes ettevõtte andmekogumites. Nad leidsid 22,7% täpsuse. Tegelikes dokumentides on vähem kui iga neljas Presidio hoiatus tõeline isikuandmete üksus. See vastab sellele, mida praktikud teatavad. Ainult meeldetuletusele häälestatud tööriist toodab tootmiskasutuseks liiga palju müra.
- aasta DICOM uuring näitas, et
score_thresholdtõstmine 0,7-ni jättis 38-s 39-st meditsiinipildist endiselt valed hoiatused. Lävi, mis kõrvaldab müra ühes dokumenditüübis, loob teises vahelejaetud tuvastusi.
See ei ole ainult Presidio probleem. Iga fikseeritud lävi sunnib kompromissile. Kõrge lävi vähendab müra, kuid suurendab vahelejätmisi. Madal lävi suurendab meeldetuletust, kuid paisutab hoiatuste arvu.
Kontekstiteadlik skoreerimine
Lahendus on kontekstiteadlik usaldusskoreerimine. Selle asemel, et skooritada ainult mustri sobitamise põhjal, suurendab süsteem kindlust, kui kontekstsõnad ilmuvad vaste lähedal. See alandab ka skoori, kui kontekst puudub.
TFN-i tuvastamiseks: sõnad nagu "tax file number", "TFN" või "Australian tax" numbri lähedal tõstavad selle skoori. Number, mis läbib kontrollsumma, kuid millel pole lähedal kontekstsõnu, saab skoori alla ülevaatusläve. Juhuslik hoiatus surutakse maha.
Mitmekeelse müra jaoks: konkreetsete riikidega seotud üksuste tüübid saab ulatusega siduda vastavat keelt kasutavate dokumentidega. TFN-i detektor, mis on ulatusega seotud inglise ja Austraalia inglise tekstiga, eemaldab müra. Selle käivitamine saksa keele sisul ilma ulatust määramata on probleemi allikas.
Kolmas kiht hübriidsüsteemis on transformermudel. See loeb täit kontekstiakent iga kandidaadi ümber. See eristab "John Smith, Patient ID 12345" tootekoodi, mis vastab nimemustriga. Kontekst lahendab ebaselguse, mida regex ja kontrollsummad ei suuda.
Vaata, kuidas kolmeastmeline tuvastusmotor käsitleb täpsust suurel skaalal. Mitmekeelne isikuandmete tuvastuse juhend selgitab, kuidas mitmekeelne müra mõjutab GDPR-vastavust.
Praktilised sammud
Enne isikuandmete tööriista juurutamist mõõda selle täpsust - mitte ainult meeldetuletust.
Käivita tööriist dokumentide kogumil, kus on teadaolev isikuandmed ja teadaolev mitteisikuandmed. Loe hoiatusi mõlemas rühmas. Arvuta true_positives / (true_positives + false_positives). See number paljastab ülevaatuskoormuse enne juurutamisele pühendumist.
Presidiot juba kasutavatele meeskondadele on skoorijaotuse analüüs kiire tee. Ekspordi valim tuvastustest koos nende usaldusskooridega. Loe, kui palju skoorivad alla 0,6, 0,7 ja 0,8. Suur osa kõrge skooriga hoiatusi puhtas tekstis viitab kontekstilüngale, mitte läveprobleemile. Turvaline vastavuse ülevaade selgitab, kuidas seda DPIA-s dokumenteerida.
Allikad
- Microsoft Presidio GitHubi arutelu #1071: süstemaatilised valepositiivsed
- Microsoft Presidio GitHubi probleem #999: Saksa keele valepositiivsed mustrid
- Alvaro jt (2024): Presidio täpsus segakeelsetes ettevõtte andmekogumites.
- DICOM skoorilävendi analüüs - Microsoft Presidio kogukond.