GDPR ja Vanhat Skannatut Arkistot: OCR Henkilötietojen Havaitsemiseen
Päivitetty vuodelle 2026
GDPR-auditoinnit paljastavat usein saman piilevän riskin: vanhat kuvapohjaiset PDF-arkistot.
Asianajotoimistoilla on 20 vuoden skannatut asiakastiedostot. Sairaaloilla on vuosikymmenien potilaiden sisäänottoasiakirjat. Viranomaisilla on skannattuja historiallisia asiakirjoja. Pankeilla on kuvamuotoiset lainahakemukset.
Näillä arkistoilla on yksi yhteinen piirre. Tiedostot ovat rasterimuotoisia kuvia — skannattuja PDF-tiedostoja, TIFF- tai JPEG-tiedostoja. Tekstikerrosta ei ole. Tavalliset henkilötietotyökalut eivät pysty lukemaan niitä. Useimmille anonymisointityökaluille nämä tiedostot ovat yksinkertaisesti näkymättömiä.
Yleinen väärinkäsitys: "Nämä ovat kuvatiedostoja — GDPR ei koske niitä."
GDPR:n 17 artiklan 1 kohta antaa henkilöille oikeuden tietojen poistamiseen. Johdanto-osan 26 kappale vahvistaa, että anonymisointi poistaa henkilötiedot soveltamisalan ulkopuolelle. Kumpikaan säännös ei sisällä poikkeusta kuvamuotoisille asiakirjoille. Asianajotoimisto, joka ei pysty vastaamaan 15 vuotta vanhan asiakkaan poistopyyntöön, kohtaa GDPR-vaatimustenmukaisuusaukon — ei vapautusta.
Tutustu vaatimustenmukaisuuskatsaukseemme ja turvallisuuskäytäntöihimme nähdäksesi, miten tuemme GDPR:ää.
Miten Havaitsemisputki Toimii
Prosessi etenee kolmessa vaiheessa.
Vaihe 1 — OCR
OCR-moottori lukee kuvan ja poimii tekstin. Se tallentaa jokaisen sanan sijainnin. Tuloste on koneluettavaa tekstiä koordinaatteineen. Tarkkuus heikkenee käsinkirjoituksen, haalistuneen musteen tai vanhojen kirjaintyyppien kohdalla.
Vaihe 2 — NLP-kohteiden tunnistus
Nimettyjen kohteiden tunnistus (NER) käy läpi OCR-tekstin. Se löytää henkilöiden nimet, organisaatiot ja sijainnit. Kaavojen sovittaminen lisää henkilötunnukset, puhelinnumerot ja tilinumerot. Jokaiselle osumalle annetaan luottamuspistemäärä.
Vaihe 3 — Anonymisointi
Havaitut kohteet korvataan tekstitulosteessa. Alkuperäistä kuvaa ei muuteta. Kuvan muuttaminen vaatii erillisiä peittämistyökaluja. Anonymisoitu teksti tukee poistopyyntöjä, DSAR-vastauksia ja vaatimustenmukaisuusdokumentaatiota.
Modernit OCR-moottorit saavuttavat 98–99 prosentin merkkitarkkuuden hyväkuntoisilla painetuilla sivuilla. Käsinkirjoitus tai huonolaatuiset skannaukset laskevat tarkkuuden 85–92 prosenttiin. Kohteiden tunnistustarkkuus on tyypillisesti korkeampi kuin merkkitarkkuus — nimi voidaan tunnistaa, vaikka yksittäisiä kirjaimia olisi väärin.
Käytännön merkitys: OCR-tarkkuus vaikuttaa havaittujen kohteiden määrään, mutta ei määrää menetelmän toimivuutta. Jopa 90 prosentin tarkkuudella löydetään useimmat nimet ja numerot. Laadun kynnysarvot ovat silti tarpeen. Menetelmä itsessään on toimiva.
Suuren Arkiston Käsittely
Suuret historialliset arkistot noudattavat nelivaiheista työnkulkua.
Vaihe 1 — Inventaario: Luetteloi kaikki kuvapohjaiset arkistot. Merkitse lähdejärjestelmä ja päivämääräväli. Priorisoi poistopyynöistä eniten alttiit tiedostot. Asiakaskohtaiset tiedostot ovat tärkeämpiä kuin sisäiset.
Vaihe 2 — Eräkäsittely: Suorita OCR ja henkilötietojen havaitseminen erissä. Viidestä kymmeneen tuhatta tiedostoa per erä on tavallinen koko. Käsittely tapahtuu yöaikaan. Tulosteena on henkilötietoraportti ja anonymisoitu tekstiote jokaisesta tiedostosta.
Vaihe 3 — Poistopyyntöjen täyttäminen: Rekisteröity lähettää pyynnön nimellä ja ajanjaksolla. Hae tunnuksia anonymisoiduista otteista. Tunnista tiedostot. Peitä tiedot. Kirjaa toimenpide.
Vaihe 4 — Jatkuva vaatimustenmukaisuus: Käsittele uudet skannatut tiedostot saman putken kautta ennen arkistointia. Säilytä henkilötietoraportit artikla 30:n mukaisen käsittelytoimien rekisterin todisteena.
Tapaustutkimus: Asianajotoimiston Arkisto
Asianajotoimiston auditointi paljasti 80 000 kuvapohjaista PDF-asiakassopimusta, jotka oli skannattu vuosina 1998–2010. Tavalliset henkilötietotyökalut eivät löytäneet yhtään osumaa. Kuvamuoto oli näkymätön.
Viisitoista entistä asiakasta oli lähettänyt poistopyyntöjä edellisten 12 kuukauden aikana. Toimisto vastasi: "Emme pysty vahvistamaan, että tietonne on poistettu." Tämä vastaus ei täytä GDPR:n 17 artiklan vaatimuksia.
Toimiston toimenpiteet:
- OCR ja henkilötietojen havaitseminen kaikille 80 000 tiedostolle 5 000 tiedoston erissä
- Käsittely kesti noin kolme viikkoa
- Tulos: 80 000 anonymisoitua tekstiotetta ja tiedostokohtaiset raportit
- Hakukelpoinen hakemisto, joka yhdistää kohteet tiedostotunnuksiin
Käsittelyn jälkeen:
- Rekisteröidyn tiedostojen löytämiseen kuluva aika: keskimäärin 4 minuuttia
- Tiedostoja per pyyntö: keskimäärin 6–8
- Peittämisaika per pyyntö: 20–30 minuuttia
Kaikki 15 avoimena ollutta poistopyyntöä ratkaistiin 30 päivän kuluessa.
Ydinviesti: vaatimustenmukaisuusvelvoite oli olemassa ennen käsittelyä. Toimistolta puuttuivat yksinkertaisesti tarvittavat työkalut. OCR-pohjainen käsittely ei luonut uutta velvoitetta — se mahdollisti olemassa olevan velvoitteen täyttämisen.
OCR:n Rajoitukset ja Laadun Hallinta
Käsinkirjoitus tuottaa alhaisemman OCR-tarkkuuden. Aseta matalampi luottamuskynnys ennen käsinkirjoitetun sisällön käsittelyä.
Huonolaatuinen skannaus alentaa pistemääriä. Kontrastin parantaminen ja vinouden korjaus auttavat ennen OCR:n suorittamista.
Epätavalliset asettelut — monisarakkeisten sivujen, vanhojen oikeudellisten kirjaintyyppien — pistemäärät voivat olla alhaisempia.
Määrittele laadun kynnysarvot vaatimustenmukaisuustyöhön:
- Yli 95 prosentin tarkkuus: automaattinen käsittely
- 80–95 prosenttia: automaattinen käsittely, jonka jälkeen ihminen tarkistaa merkityt kohteet
- Alle 80 prosenttia: lähetä manuaaliseen tarkistukseen
Kerrostettava lähestymistapa antaa valvontaviranomaisille selkeän vastauksen luotettavuuden arvioinnista. Automaattiset työkalut käsittelevät korkean luottamuksen tiedostot. Manuaalinen jono käsittelee loput. Tuottavuus pysyy korkeana, kuten myös vaatimustenmukaisuuden laatu.
UKK-sivumme kattaa yleisimmät kysymykset OCR-pohjaisesta käsittelystä ja auditointijäljitysvaatimuksista.