Pärandi arhiivi probleem, millest keegi ei räägi
Organisatsioonid, kes teevad GDPR järgimise auditeid, avastab sageli sama risku kategooria: pildil põhinevad PDF arhiivid ajast enne digitaliseerimisprogrammid olid rakendatud.
Juriidilised firmad 20-aastaste skannitud kliendi failidega. Terviseasutused aastate jooksul skannitud patsiendi sissekirjutuse vormidega. Valitsuse asutused skannitud ajaloosaarekitega. Pangad skannitud laenurakendusi ja kontokirjuga.
Neil arhiividel on ühine omadus: dokumendid on talletatud skannitud pildidena (rasterpdf, TIFF või JPEG), mitte tekstipõhisest digitaalse dokumentidena. Pole teksti taseme otsida, pole seadme-loetavat sisu standardsete PII tööriistade analüüsimiseks. Tavapärase anonymiseerimise tööriista jaoks on need dokumendid nähtamatu.
Levinud valeteadmine: "Need on ainult pildifailid — GDPR tõepoolest ei kehti."
GDPR tekst on selge. Artikkel 17 (1) annab andmete teemale õiguse kustutamise isiklikele andmete. Preambuuli 26 kinnitab, et isiklike andmete anonüümseid on standard andmete jaoks, mis enam ei puuduta määratletava loomulikke isikut. Kummagi sätte ei kaasata erandeid paberitulemus pildivormingutes.
Juriidiline firma, kes ei saa reageerida õigusele kustutamisele taotluse kliendile, kes sai teenindatud 15 aastat tagasi — kuna 15-aastased kliendi kirjed olemasolevatuna ainult skannitud pildipdf-idena — on GDPR järgimise vahe, mitte erandi.
Kuidas pildipõhine PII tuvastamine töötab
Tehniliste torujuhe pildipõhise dokumendi PII tuvastamisele integreerub kaks staadit:
Staadium 1: Optiline märgtunne (OCR)
- Sissetulek: skannitud PDF või pildifail
- OCR mootor ekstraheerib teksti skannitud pildist
- Väljund: seadme-loetav tekst positsioonkoordinaatidega
- Väljakutse: käsikiri, halva skaneerimise kvaliteet, kahvatu ink ja vananenud kirjatüübid vähendada OCR täpsus
Staadium 2: NLP PII tuvastamine
- Sissetulek: OCR-ekstraheeritud tekst
- Nimetatud üksuse tunnetus (NER) identifitseerib isiku nimed, organisatsioonid, asukohad
- Muster sobitamise identifitseerib SSN, telefoninumbrid, e-posti aadressid, konto numbrid
- Väljund: tuvastatut PII üksuseid usalduse skooridega ja positsioon viitedega
Staadium 3: Anonymiseemine
- Tuvastatut üksused on anonymiseeritud ekstraheeritud tekstis väljundis
- Pildipõhine PDF: väljund on anonymiseeritud teksti dokument (algne pilt ei ole muudetud — pildi muutatamist nõuaks PDF raudgeeria tööriistade)
- Anonymiseeritud tekst võimaldab DSAR vastused, kustutamise taotluse täitmist ja järgimise dokumentatsiooni
OCR kvaliteet on peamise tehnilise piirangu. Headel trükitud dokumentidel saavutavad kaasaegne OCR mootorid 98-99% märgi täpsust. Käsikiri või halvaks degradeeritud skannib, täpsus võib olla 85-92%. PII tuvastamise eesmärkidel on üksuse-tase täpsus (õigesti identifitseerida, et nimi ilmub dokumendis, isegi kui üksikud märgid on väike vead) tavaliselt kõrgem kui märgi-taseme täpsus.
Praktiline töötlus suurte arhiivide jaoks
Organisatsioonide jaoks suurte pärandi arhiividega operatiivne töövooge:
Inventuur faas:
- Kataloogi kõigist pildipõhine PDF arhiividest allikasüsteem ja kuupäeva vahemik
- Hindama mahus ja prioritiseerige õigust-kustutamise riskiga (kliendi seisev kirjed enne)
Kogu töötlus:
- Töötlus arhiivid kogus (5 000-10 000 faili kogu on tavapärane)
- OCR + PII tuvastamine käivitub asünkroonselt
- Väljund: per-faili PII tuvastamise aruanded ja anonymiseeritud teksti ekstraheerib
Õigus-kustutamise täitmine:
- Andmete teema esitab kustutamise taotluse nimega ja asjakohase perioodiga
- Otsing anonymiseeritud teksti ekstraheerib pseudonüümsete märkide jaoks andmete teemaga seotud
- Identifitseerida konkreetsed dokumendid, mille sisaldab andmete teema kirjed
- Töötlus neid konkreetseid dokumente redaktsiooni jaoks (muutmine algse pildipdf-i)
- Dokumenteerida kustutamise toiming
Pidev järgimine:
- Uued skannitud dokumendid töödeldakse sama torujuhe kaudu enne arhiveerimise
- PII tuvastamise aruanded säilitatakse GDPR artikkel 30 töötlemise tegevuste kirjete tõendina
Kasutuse juhtum: Juriidiline firma 20-aastane arhiiv
Juriidiline firma tehas GDPR auditit avastades 80 000 pildipõhine PDF kliendi lepingud skannitud vahemikus 1998 ja 2010. Tavapärase PII tööriistade tagastus nulli avastamist — vormingu pildipõhine oli nähtamatu.
Järgimise probleem oli konkreetselt: 15 endiselt klientidel olid esitanud õigusele kustutamise taotlused viimases 12 kuus. Firma vastus: "Me oleme mittesuuteline kinnitada teie andmed on kustutamise, kuna meie ajaloosaarekid on vormingus pildis, mida me ei saa töötlemine." See ei ole nõustunud vastus GDPR artiklis 17.
Töötlus lähenemine:
- OCR + PII tuvastamine kõigil 80 000 dokumendil kogus 5 000
- Töötluse aeg: ligikaudu 3 nädalat kogu töötlemist
- Tulemus: 80 000 anonymiseeritud teksti ekstraheerib per-faili PII tuvastamise aruannetega
- Otsitav indeks tuvastatut üksuseid seotud dokumendi ID-de
Kustutamise taotluse täitmine järeltöötlemist:
- Keskmise aeg identifitseerida dokumentide konkreetsele andmete teemale: 4 minutit (otsing anonymiseeritud teksti ekstraheerib)
- Dokumendi arv kustutamise taotluse kohta: keskmist 6-8 dokumenti
- Redaktsioon tuvastatut dokumentidest: 20-30 minutit taotluse kohta
Varem võimatu järgimise kohustus: täidetud. 15 tuleb välja kustutamise taotlused lahendati 30 päeva jooksul arhiivi töötlemise lõpuleviimine.
OCR piirangud ja kvaliteedi juhtimine
Honest hindamine OCR-l põhinev PII tuvastamine pärandi dokumendid nõuab piirangud tunne:
Käsikiri täpsus: Käsitsi kirjutatud dokumendid (isikupärased deklaratsioonid, rakenduse vormide täidetud käsitsi) on madalam OCR täpsus kui trükitud dokumendid. PII tuvastamine käsikiri sisuriga nõuab usalduse lävi reguleerimise.
Degradeeritud skanni kvaliteet: Dokumendid skannitud madal eraldusvõime või halva nähtavuse on vähendatud OCR täpsus. Eeltöötlus (kontrasti parandamine, de-skewing) võib parandada tulemused.
Ebatavapärase fondid ja vormingud: Eeldigitaalse kirjatüübid, juriidiline dokumendi vormingud ebatavaliste paigutused ja mitme veeru dokumendid võivad olla madalam OCR täpsus.
Kvaliteedi lävi seadistamine: Järgimise dokumentatsioon on asjakohane klassifitseerida dokumendid OCR usalduse: kõrge-usaldus (> 95% leht täpsus) sobiv automatiseeritud töötlemist; keskmiste-usaldus (80-95%) sobiv automatiseeritud töötlemist inimese ülevaatuse lipu üksusega; madal-usaldus (<80%) vajavat käsitsi ülevaatuse.
Organisatsioonide suure pärandi pildipõhise degradeeritud ajaloosaarekid on hübriidjäädel lähenemine — automatiseeritud töötlemist kõrge-usaldus dokumendid, käsitsi ülevaatus järjekord madal-usaldus dokumendid — annab praktiline toimivus kuigi säilitamine järgimise kvaliteet.
Allikad: