Päivitetty vuodelle 2026

GDPR-auditoinnit paljastavat usein saman piilevän riskin: vanhat kuvapohjaiset PDF-arkistot.

Asianajotoimistoilla on 20 vuoden skannatut asiakastiedostot. Sairaaloilla on vuosikymmenien potilaiden sisäänottoasiakirjat. Viranomaisilla on skannattuja historiallisia asiakirjoja. Pankeilla on kuvamuotoiset lainahakemukset.

Näillä arkistoilla on yksi yhteinen piirre. Tiedostot ovat rasterimuotoisia kuvia — skannattuja PDF-tiedostoja, TIFF- tai JPEG-tiedostoja. Tekstikerrosta ei ole. Tavalliset henkilötietotyökalut eivät pysty lukemaan niitä. Useimmille anonymisointityökaluille nämä tiedostot ovat yksinkertaisesti näkymättömiä.

Yleinen väärinkäsitys: "Nämä ovat kuvatiedostoja — GDPR ei koske niitä."

GDPR:n 17 artiklan 1 kohta antaa henkilöille oikeuden tietojen poistamiseen. Johdanto-osan 26 kappale vahvistaa, että anonymisointi poistaa henkilötiedot soveltamisalan ulkopuolelle. Kumpikaan säännös ei sisällä poikkeusta kuvamuotoisille asiakirjoille. Asianajotoimisto, joka ei pysty vastaamaan 15 vuotta vanhan asiakkaan poistopyyntöön, kohtaa GDPR-vaatimustenmukaisuusaukon — ei vapautusta.

Tutustu vaatimustenmukaisuuskatsaukseemme ja turvallisuuskäytäntöihimme nähdäksesi, miten tuemme GDPR:ää.

Miten Havaitsemisputki Toimii

Prosessi etenee kolmessa vaiheessa.

Vaihe 1 — OCR

OCR-moottori lukee kuvan ja poimii tekstin. Se tallentaa jokaisen sanan sijainnin. Tuloste on koneluettavaa tekstiä koordinaatteineen. Tarkkuus heikkenee käsinkirjoituksen, haalistuneen musteen tai vanhojen kirjaintyyppien kohdalla.

Vaihe 2 — NLP-kohteiden tunnistus

Nimettyjen kohteiden tunnistus (NER) käy läpi OCR-tekstin. Se löytää henkilöiden nimet, organisaatiot ja sijainnit. Kaavojen sovittaminen lisää henkilötunnukset, puhelinnumerot ja tilinumerot. Jokaiselle osumalle annetaan luottamuspistemäärä.

Vaihe 3 — Anonymisointi

Havaitut kohteet korvataan tekstitulosteessa. Alkuperäistä kuvaa ei muuteta. Kuvan muuttaminen vaatii erillisiä peittämistyökaluja. Anonymisoitu teksti tukee poistopyyntöjä, DSAR-vastauksia ja vaatimustenmukaisuusdokumentaatiota.

Modernit OCR-moottorit saavuttavat 98–99 prosentin merkkitarkkuuden hyväkuntoisilla painetuilla sivuilla. Käsinkirjoitus tai huonolaatuiset skannaukset laskevat tarkkuuden 85–92 prosenttiin. Kohteiden tunnistustarkkuus on tyypillisesti korkeampi kuin merkkitarkkuus — nimi voidaan tunnistaa, vaikka yksittäisiä kirjaimia olisi väärin.

Käytännön merkitys: OCR-tarkkuus vaikuttaa havaittujen kohteiden määrään, mutta ei määrää menetelmän toimivuutta. Jopa 90 prosentin tarkkuudella löydetään useimmat nimet ja numerot. Laadun kynnysarvot ovat silti tarpeen. Menetelmä itsessään on toimiva.

Suuren Arkiston Käsittely

Suuret historialliset arkistot noudattavat nelivaiheista työnkulkua.

Vaihe 1 — Inventaario: Luetteloi kaikki kuvapohjaiset arkistot. Merkitse lähdejärjestelmä ja päivämääräväli. Priorisoi poistopyynöistä eniten alttiit tiedostot. Asiakaskohtaiset tiedostot ovat tärkeämpiä kuin sisäiset.

Vaihe 2 — Eräkäsittely: Suorita OCR ja henkilötietojen havaitseminen erissä. Viidestä kymmeneen tuhatta tiedostoa per erä on tavallinen koko. Käsittely tapahtuu yöaikaan. Tulosteena on henkilötietoraportti ja anonymisoitu tekstiote jokaisesta tiedostosta.

Vaihe 3 — Poistopyyntöjen täyttäminen: Rekisteröity lähettää pyynnön nimellä ja ajanjaksolla. Hae tunnuksia anonymisoiduista otteista. Tunnista tiedostot. Peitä tiedot. Kirjaa toimenpide.

Vaihe 4 — Jatkuva vaatimustenmukaisuus: Käsittele uudet skannatut tiedostot saman putken kautta ennen arkistointia. Säilytä henkilötietoraportit artikla 30:n mukaisen käsittelytoimien rekisterin todisteena.

Tapaustutkimus: Asianajotoimiston Arkisto

Asianajotoimiston auditointi paljasti 80 000 kuvapohjaista PDF-asiakassopimusta, jotka oli skannattu vuosina 1998–2010. Tavalliset henkilötietotyökalut eivät löytäneet yhtään osumaa. Kuvamuoto oli näkymätön.

Viisitoista entistä asiakasta oli lähettänyt poistopyyntöjä edellisten 12 kuukauden aikana. Toimisto vastasi: "Emme pysty vahvistamaan, että tietonne on poistettu." Tämä vastaus ei täytä GDPR:n 17 artiklan vaatimuksia.

Toimiston toimenpiteet:

OCR ja henkilötietojen havaitseminen kaikille 80 000 tiedostolle 5 000 tiedoston erissä
Käsittely kesti noin kolme viikkoa
Tulos: 80 000 anonymisoitua tekstiotetta ja tiedostokohtaiset raportit
Hakukelpoinen hakemisto, joka yhdistää kohteet tiedostotunnuksiin

Käsittelyn jälkeen:

Rekisteröidyn tiedostojen löytämiseen kuluva aika: keskimäärin 4 minuuttia
Tiedostoja per pyyntö: keskimäärin 6–8
Peittämisaika per pyyntö: 20–30 minuuttia

Kaikki 15 avoimena ollutta poistopyyntöä ratkaistiin 30 päivän kuluessa.

Ydinviesti: vaatimustenmukaisuusvelvoite oli olemassa ennen käsittelyä. Toimistolta puuttuivat yksinkertaisesti tarvittavat työkalut. OCR-pohjainen käsittely ei luonut uutta velvoitetta — se mahdollisti olemassa olevan velvoitteen täyttämisen.

OCR:n Rajoitukset ja Laadun Hallinta

Käsinkirjoitus tuottaa alhaisemman OCR-tarkkuuden. Aseta matalampi luottamuskynnys ennen käsinkirjoitetun sisällön käsittelyä.

Huonolaatuinen skannaus alentaa pistemääriä. Kontrastin parantaminen ja vinouden korjaus auttavat ennen OCR:n suorittamista.

Epätavalliset asettelut — monisarakkeisten sivujen, vanhojen oikeudellisten kirjaintyyppien — pistemäärät voivat olla alhaisempia.

Määrittele laadun kynnysarvot vaatimustenmukaisuustyöhön:

Yli 95 prosentin tarkkuus: automaattinen käsittely
80–95 prosenttia: automaattinen käsittely, jonka jälkeen ihminen tarkistaa merkityt kohteet
Alle 80 prosenttia: lähetä manuaaliseen tarkistukseen

Kerrostettava lähestymistapa antaa valvontaviranomaisille selkeän vastauksen luotettavuuden arvioinnista. Automaattiset työkalut käsittelevät korkean luottamuksen tiedostot. Manuaalinen jono käsittelee loput. Tuottavuus pysyy korkeana, kuten myös vaatimustenmukaisuuden laatu.

UKK-sivumme kattaa yleisimmät kysymykset OCR-pohjaisesta käsittelystä ja auditointijäljitysvaatimuksista.

Lähteet

Liittyvät Artikkelit

GDPR & Vaatimustenmukaisuus

Itse isännöidyt PII-työkalut epäonnistuvat compliance-auditoinneissa

spaCy 3.4.4 tuottaa erilaisia NER-tuloksia kuin spaCy 3.5.1. Eräs finanssipalveluyritys havaitsee, että 3 % asiakirjoista oli anonymisoitu eri tavalla staging- kuin tuotantoympäristössä — GDPR-auditoinnin tulos.

GDPR & Vaatimustenmukaisuus

Presidio ei tunnista 220+ GDPR-entiteettiä

Presidio toimitetaan noin 40 valmiilla entiteettitunnistimella, jotka keskittyvät yhdysvaltalaisiin tunnistimiin. Eurooppalaiset organisaatiot tarvitsevat IBAN:ia, kansallisia verotunnistenumeroita ja kansallisia asiakirjoja, joita Presidio ei sisällä.

GDPR & Vaatimustenmukaisuus

Konfiguraation ajautuminen: piilevä GDPR-riski

Analyytikko A korvaa nimet pseudonyymeillä. Analyytikko B mustaa ne. GDPR-tarkastuksesi löytää molemmat samasta aineistosta. Konfiguraation ajautuminen — jossa tiimi...

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

GDPR ja Vanhat Skannatut Asiakirjat: OCR ja Henkilötiedot

GDPR ja Vanhat Skannatut Arkistot: OCR Henkilötietojen Havaitsemiseen

Miten Havaitsemisputki Toimii

Suuren Arkiston Käsittely

Tapaustutkimus: Asianajotoimiston Arkisto

OCR:n Rajoitukset ja Laadun Hallinta

Lähteet

Liittyvät Artikkelit

Itse isännöidyt PII-työkalut epäonnistuvat compliance-auditoinneissa

Presidio ei tunnista 220+ GDPR-entiteettiä

Konfiguraation ajautuminen: piilevä GDPR-riski

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow