Miks binaarne isikuandmete tuvastamine vastavusele ebaõnnestub
Uuendatud 2026. aastal
Iga isikuandmete tööriist seisab silmitsi ühe raske probleemiga. Sama sõne võib olla isikuandmed ühes kohas ja mitte teises.
"Jaan" klienditoimikus on andmesubjekt. "Jaan" ajalooartiklis John F. Kennedy kohta ei ole. Üheksaekoheline arv meditsiinilises andmikus on HIPAA kood. Samad üheksa numbrit tootekoodis ei ole.
Jah/ei lipp ei suuda sellega hakkama saada. See sunnib kahele halvale valikule: moonutada kõik sõned, mis võivad olla isikuandmed, või moonutada ainult kindlad vasted. Mõlemad ebaõnnestuvad seaduses, kus iga otsus peab olema selge ja dokumenteeritud.
Per-üksuse skoor 0-st 100-ni pakub kolmandat teed. See juhib astmelisi reegleid, inimese ülevaatuse järjekordi ja täielikke auditeerimiskirjeid.
Jah/ei lippude piirang
Kontekst muudab andmete tähendust. Kaks faili võivad sisaldada sama sõne. Ühes on see isikuandmed. Teises ei ole. Lipp ei suuda seda näidata. Arv saab.
Ainult lipuga on teil kaks halba valikut. Üle-moonutamine hävitab dokumendi väärtuse. Ala-moonutamine loob juriidilise riski. Kumbki ei pea kohtus vastu.
Juriidiline avastamine: miks skoore on vaja
Juriidilisel avastamisel on reeglid, mis muudavad skooritud tuvastamise hädavajalikuks.
Üle-moonutamise probleem. Advokaatide nimede või kohtu tsitaatide moonutamine kahjustab tõendeid. Kohtud on advokaate trahvinud üle-moonutamise eest. Sama kohtupraktika, mis katab ala-moonutamise, katab ka seda.
Ala-moonutamise probleem. Tõelise isikuandmete vahelejätmine tekitab riski. See hõlmab kliendi privaatsuse rikkumisi, advokaadikoja kaebusi ja mõnes kohas kriminaalkaristusi.
Vajadus selgitada iga otsust. Kui kohus küsib, miks üksus moonutati, peavad advokaadid seda selgitama. "Tööriist tähistas seda" ei ole piisav. "Tööriist hindas selle 94%-le kui sotsiaalkindlustuse numbrit. Meie reegel moonutab automaatselt üle 85%." See on piisav.
Jah/ei lipp ei suuda seda vastust anda. Skooritud tööriist kindlate reeglitega saab. Vaadake ka: Moonutuste kaitsmine: AI skoorid kohtus.
Kolmetasandiline ülevaatussüsteem
Kõige tõhusam seadistus kasutab kolme tasandit üksuse skoori alusel.
Tasand 1 - Automaatne (üle 85%):
- Üksused, mis vastavad kõrge kindlusega vormingutele (SSN, IBAN, MRN)
- Moonutatakse automaatselt ilma inimese sammuta
- Logi registreerib üksuse tüübi, skoori, meetodi ja aja
- Näide: "571-44-9283" 97%-l kui SSN - moonutatud automaatselt
Tasand 2 - Inimese ülevaatus (50-85%):
- Üksused, mis võivad olla isikuandmed, kuid vajavad otsust
- Saadetud ülevaatajale aktsepteerimiseks, tagasilükkamiseks või ümberliigitamiseks
- Logi registreerib üksuse tüübi, skoori, ülevaataja ID, otsuse ja aja
- Näide: "Jaan Tamm" tehnikas dokumendis 67%-l - ülevaataja kinnitab, et see on nimi - moonutatud
Tasand 3 - Ainult soovitus (alla 50%):
- Madala kindlusega üksused kuvatakse vihjete kujul
- Ei moonutata automaatselt; ülevaataja võib tegutseda või vahele jätta
- Logi registreerib üksuse tüübi, skoori ja ülevaataja valiku
- Näide: "Tamm" tootedokumendis 42%-l - ülevaataja leiab, et see on ettevõtte nimi - moonutamata
Ainult tasand 2 vajab inimese tööd. Kõik kolm tasandit toodavad auditeerimiskirjeid.
Kuidas skoore ehitatakse
Isikuandmete tööriistad kombineerivad signaale ühe numbri tootmiseks üksuse kohta.
Regex mustrid. Täpne SSN-vormingu vaste saab kõrge baasskoori. Osaline vaste saab madalama.
Mudeli väljund. Nimestatud üksuste mudelid määravad tõenäosuse klassi kohta. Skoor 0,93 PERSON jaoks annab kõrge kindlusega tulemuse.
Konteksti signaalid. Üksuse ümbritsev tekst kohandab skoori. "Minu SSN on 571-44-9283" tõstab seda. "Tootekood 571-44-9283" alandab seda.
Ansamblite reeglid. Süsteemid kombineerivad regex, mudeli ja konteksti signaale kindlate kaaludega. Lõplik number peegeldab kõiki tõendeid.
See number juhib iga lävistotsuse teie töövoos. Lisateabe saamiseks jah/ei tööriistade valepositiivsetest tulemustest vaadake: Isikuandmete tööriistade valepositiivne maks.
Kindlustuse nõuded: reaalne näide
Kindlustusfailid segavad selget isikuandmeid - poliisivõtja nimi, aadress, SSN - kontekstisõltuva andmetega: tunnistajate nimed, ettevõtete nimed, hindaja allkirjad.
Jah/ei tööriist kas moonutab kõiki nimesid (vale ettevõtete jaoks) või jätab tunnistajate nimed kahe silma vahele (risk). Skooritud tööriist käsitleb iga üksust eraldi:
- SSN sildiga "poliisivõtja SSN" 96%-l - moonutatud automaatselt
- Poliisivõtja nimi sildiga PERSON 91%-l - moonutatud automaatselt
- Töövõtja ettevõte sildiga ORG 78%-l - üle vaadatud - ülevaataja lükkab moonutamise tagasi
- Tunnistaja nimi sildiga PERSON 82%-l - üle vaadatud - ülevaataja aktsepteerib
- Hindaja nimi sildiga PERSON 71%-l - üle vaadatud - ülevaataja aktsepteerib (kolmanda osapoole andmed)
Igal otsusel on numbriline alus. Auditeerimisraja on täielik.
Vastavuskirjete ehitamine
GDPR artikkel 5(1)(f) ja HIPAA turvareegli jaoks genereerivad skooritud tööriistad kirjed iseseisvalt.
Üksuse tasemel auditeerimiskirjed jäädvustavad üksuse tüübi, skoori, otsuse tüübi (automaatne või käsitsi), ülevaataja ID ja aja. Need eksporditakse CSV-na andmekaitseasutuse päringute jaoks.
Lävistuskirjed dokumenteerivad praeguseid seadeid ja iga muutust. Iga muutus sisaldab, kes selle tegi, millal ja miks. See näitab hallatavat, tahtlikku poliitikat.
Statistika aruanded katavad tuvastamismäärasid üksuse tüübi järgi, tasand 2 ülevaatamismäärasid ja tühistamismäärasid. Need vastavad andmekaitseametile, kes küsib "näidake meile oma kontrolle".
HIPAA auditeerimisraja juhiste jaoks vaadake: Selgitatav moonutamine: HIPAA auditid.
Jah/ei lipp on arvamus. Skoor on tõend.