Perintöarkisto-ongelma, josta kukaan ei puhu
GDPR-yhteensopivuusauditointeja tekevät organisaatiot löytävät usein saman piilotetun riskikategorian: kuvapohjaiset PDF-arkistot ennen digitalisointiohjelmien toteuttamista.
Lakitoimistot, joilla on 20 vuotta skannattuja asiakirjoja asiakkailta. Terveydenhuollon tarjoajat, joilla on vuosikymmenten ajan skannattuja potilaslomakkeita. Valtion virastot, joilla on skannattuja historiallisia asiakirjoja. Pankit, joilla on kuvattuja lainahakemuksia ja tiliasiakirjoja.
Näillä arkistoilla on yhteinen piirre: asiakirjat on tallennettu skannattuina kuvina (raster PDF, TIFF tai JPEG), ei tekstipohjaisina digitaalisina asiakirjoina. Ei ole tekstikerrosta, jota etsiä, ei koneellisesti luettavaa sisältöä, jota standardit PII-työkalut voisivat analysoida. Perinteiselle anonymisointityökalulle nämä asiakirjat ovat näkymättömiä.
Yleinen väärinkäsitys: "Nämä ovat vain kuvafailoja — GDPR ei oikeastaan koske."
GDPR-teksti on selkeä. Artikla 17(1) myöntää rekisteröidyille oikeuden henkilötietojen poistamiseen. Johdanto 26 vahvistaa, että henkilötietojen anonymisointi on standardi tiedoille, jotka eivät enää liity tunnistettavaan luonnolliseen henkilöön. Kumpikaan säännös ei sisällä poikkeusta paperista johdetuille kuvamuodoille.
Lakitoimisto, joka ei voi vastata poistamisoikeuspyyntöön asiakkaalta, joka on saanut palvelua 15 vuotta sitten — koska 15 vuotta vanhat asiakasasiakirjat ovat vain skannattuja kuvapdf-tiedostoja — on GDPR-yhteensopivuuden puute, ei poikkeus.
Kuinka kuvapohjainen PII-tunnistus toimii
Kuvapohjaisten asiakirjojen PII-tunnistuksen tekninen putki integroi kaksi vaihetta:
Vaihe 1: Optinen merkkitunnistus (OCR)
- Syöte: skannattu PDF tai kuvafailo
- OCR-moottori poimii tekstiä skannatusta kuvasta
- Tuotos: koneellisesti luettava teksti sijaintikoordinaatteineen
- Haaste: käsialakirjoitus, huono skannauslaatu, haalistunut muste ja vanhat fontit vähentävät OCR:n tarkkuutta
Vaihe 2: NLP PII-tunnistus
- Syöte: OCR:llä poimittu teksti
- Nimettyjen entiteettien tunnistus (NER) tunnistaa henkilöiden nimet, organisaatiot, sijainnit
- Mallin tunnistus tunnistaa sosiaaliturvatunnuksia, puhelinnumeroita, sähköpostiosoitteita, tilinumeroita
- Tuotos: tunnistetut PII-entiteetit luottamusarvioineen ja sijaintiviittauksineen
Vaihe 3: Anonymisointi
- Tunnistetut entiteetit anonymisoidaan poimitussa tekstissä
- Kuvapdf:lle: tuotos on anonymisoitu tekstiasiakirja (alkuperäistä kuvaa ei muokata — kuvan muokkaaminen vaatisi PDF:n punaisointityökaluja)
- Anonymisoitu teksti mahdollistaa DSAR-vastaukset, poistamispyyntöjen täyttämisen ja yhteensopivuusasiakirjat
OCR-laatu on ensisijainen tekninen rajoite. Hyvälaatuisten painettujen asiakirjojen osalta nykyaikaiset OCR-moottorit saavuttavat 98-99 % merkkitarkkuuden. Käsialakirjoituksessa tai heikkolaatuisissa skannauksissa tarkkuus voi olla 85-92 %. PII-tunnistustarkoituksiin entiteettitason tarkkuus (oikein tunnistaminen, että nimi esiintyy asiakirjassa, vaikka yksittäisissä merkeissä olisi pieniä virheitä) on tyypillisesti korkeampi kuin merkkitason tarkkuus.
Käytännön käsittely suurille arkistoille
Suurilla perintöarkistoilla varustetuilla organisaatioilla operatiivinen työnkulku:
Inventaarivaihe:
- Luetteloi kaikki kuvapohjaiset PDF-arkistot lähdejärjestelmän ja aikarajan mukaan
- Arvioi määrä ja priorisoi poistamisoikeusriski (asiakasasiakirjat ensin)
Eräprosessi:
- Käsittele arkistoja erissä (5 000-10 000 tiedostoa per erä on tyypillistä)
- OCR + PII-tunnistus toimii asynkronisesti
- Tuotos: per-tiedosto PII-tunnistusraportit ja anonymisoidut tekstilainaukset
Poistamisoikeuden täyttäminen:
- Rekisteröity toimittaa poistamispyyntöön nimen ja asianomaisen ajanjakson
- Etsi anonymisoiduista tekstilainauksista pseudonymisoituja tunnuksia, jotka liittyvät rekisteröityyn
- Tunnista erityiset asiakirjat, jotka sisältävät rekisteröidyn asiakirjat
- Käsittele nämä erityiset asiakirjat punaisointia varten (alkuperäisen kuva PDF:n muokkaaminen)
- Dokumentoi poistamistoimenpide
Jatkuva yhteensopivuus:
- Uudet skannatut asiakirjat käsitellään saman putken kautta ennen arkistointia
- PII-tunnistusraportit säilytetään GDPR:n artiklan 30 käsittelytoimintojen asiakirjoina
Käyttötapaus: Lakitoimiston 20-vuotinen arkisto
Lakitoimisto, joka suoritti GDPR-auditoinnin, löysi 80 000 kuvapohjaista PDF-asiakassopimusta, jotka oli skannattu vuosina 1998-2010. Standardit PII-työkalut eivät palanneet yhtään tunnistusta — kuvapohjainen muoto oli näkymätön.
Yhteensopivuusongelma oli konkreettinen: 15 entistä asiakasta oli jättänyt poistamisoikeuspyynnöt edellisten 12 kuukauden aikana. Toimiston vastaus: "Emme voi vahvistaa, että tietosi on poistettu, koska historialliset asiakirjamme ovat kuvamuodossa, jota emme voi käsitellä." Tämä ei ole yhteensopiva vastaus GDPR:n artiklan 17 mukaan.
Käsittelylähestymistapa:
- OCR + PII-tunnistus kaikille 80 000 asiakirjalle erissä 5 000
- Käsittelyaika: noin 3 viikkoa eräprosesseja
- Tulos: 80 000 anonymisoitua tekstilainasta per-tiedosto PII-tunnistusraporteilla
- Haettavissa oleva indeksi tunnistetuista entiteeteistä, jotka on liitetty asiakirja-ID:hin
Poistamispyyntöjen täyttäminen käsittelyn jälkeen:
- Keskimääräinen aika asiakirjojen tunnistamiseen tietylle rekisteröidylle: 4 minuuttia (haku anonymisoiduista tekstilainauksista)
- Asiakirjamäärä per poistamispyyntö: keskimäärin 6-8 asiakirjaa
- Tunnistettujen asiakirjojen punaisointi: 20-30 minuuttia per pyyntö
Aiemmin mahdoton yhteensopivuusvelvoite: täytetty. 15 avoinna olevaa poistamispyyntöä ratkaistiin 30 päivän kuluessa arkistoinnin käsittelyn päättymisestä.
OCR:n rajoitukset ja laadunhallinta
Rehellinen arviointi OCR-pohjaisesta PII-tunnistuksesta perintöasiakirjoille edellyttää rajoitusten tunnustamista:
Käsialakirjoituksen tarkkuus: Käsin kirjoitetuilla asiakirjoilla (henkilökohtaiset lausunnot, käsin täytetyt hakemuslomakkeet) on alhaisempi OCR-tarkkuus kuin painetuilla asiakirjoilla. PII-tunnistus käsinkirjoitetuista sisällöistä vaatii luottamusrajan säätämistä.
Heikkolaatuinen skannaus: Asiakirjat, jotka on skannattu matalalla resoluutiolla tai huonolla valotuksella, ovat heikentäneet OCR-tarkkuutta. Esikäsittely (kontrastin parantaminen, vinouden korjaaminen) voi parantaa tuloksia.
Epätavalliset fontit ja muodot: Esidigitalisoidut fontit, oikeudelliset asiakirjamuodot epätavallisilla asetteluilla ja monisarakkeiset asiakirjat voivat olla alhaisempia OCR-tarkkuudessa.
Laatu- ja raja-asetukset: Yhteensopivuusasiakirjoille on asianmukaista luokitella asiakirjat OCR-luottamuksen mukaan: korkean luottamuksen (>95 % sivutarkkuus) soveltuu automatisoituun käsittelyyn; keskiluottamus (80-95 %) soveltuu automatisoituun käsittelyyn ihmisen tarkastuksella merkittyjen entiteettien osalta; alhainen luottamus (<80 %) vaatii manuaalista tarkastusta.
Suurilla heikkolaatuisten historiallisten asiakirjojen arkistoilla varustetuilla organisaatioilla hybridi-lähestymistapa — automatisoitu käsittely korkean luottamuksen asiakirjoille, manuaalinen tarkastusjonot alhaisen luottamuksen asiakirjoille — tarjoaa käytännön läpimenon samalla, kun se ylläpitää yhteensopivuuden laatua.
Lähteet: