GDPR og Ældre Scannede Filer: OCR til PII
Opdateret for 2026
GDPR-revisioner afslører ofte den samme skjulte risiko: gamle billedbaserede PDF-arkiver.
Advokatfirmaer opbevarer 20 år gamle scannede klientfiler. Hospitaler gemmer årtier af patientskemaer. Offentlige myndigheder opbevarer scannede journaler. Banker har billedarkiverede lånesager.
Disse arkiver har ét fællestræk. Filerne er rasterbilleder — scannede PDF'er, TIFF eller JPEG. Der er intet tekstlag. Standard PII-værktøjer kan ikke læse dem. For de fleste anonymiseringsværktøjer eksisterer disse filer simpelthen ikke.
En udbredt forestilling: "Det er billedfiler — GDPR gælder ikke her."
GDPR Artikel 17(1) giver folk ret til sletning. Betragtning 26 fastslår, at anonymisering fjerner personoplysninger fra lovens anvendelsesområde. Ingen af dem indeholder en undtagelse for billedformater. Et advokatfirma, der ikke kan efterkomme en anmodning om sletning af en 15 år gammel klientfil, har et overholdelsesgab. Det har ikke en fritagelse.
Se vores compliance-oversigt og sikkerhedspraksis for, hvordan vi understøtter GDPR.
Sådan Fungerer Detektionspipelinen
Processen kører i tre faser.
Fase 1 — OCR
OCR-motoren læser billedet og udtrækker tekst. Den registrerer positionen af hvert ord. Output er maskinlæsbar tekst med koordinater. Nøjagtigheden falder ved håndskrift, falmet blæk eller gamle skrifttyper.
Fase 2 — NLP-Enhedsdetektion
Named Entity Recognition (NER) scanner OCR-teksten. Den finder personnavne, organisationer og steder. Mønstermatching tilføjer CPR-numre, telefonnumre og kontonumre. Hvert fund får en konfidenscore.
Fase 3 — Anonymisering
Registrerede enheder erstattes i tekstoutputtet. Det originale billede ændres ikke. Ændring af billedet kræver separat redigeringsværktøj. Den anonymiserede tekst understøtter sletningsanmodninger, DSAR-svar og overholdelsesdokumentation.
Moderne OCR-motorer opnår 98–99% tegnøjagtighed på rene trykte sider. Håndskrift eller forringede scans falder til 85–92%. Enhedsniveauøjagtighed er typisk højere end tegnniveauøjagtighed. Et navn kan identificeres, selv når et par bogstaver er forkerte.
Den praktiske konsekvens: OCR-nøjagtighed påvirker, hvor mange enheder du finder. Den afgør ikke, om metoden virker. Selv ved 90% nøjagtighed finder du de fleste navne og numre. Kvalitetsniveauer er stadig nødvendige. Metoden i sig selv er sund.
Behandling af et Stort Arkiv
Store ældre arkiver følger et arbejdsflow med fire faser.
Fase 1 — Inventar: List alle billedbaserede arkiver. Notér kildesystem og datointerval. Prioritér journaler med høj sletningsrisiko. Klientvendte filer kommer før interne.
Fase 2 — Batchbehandling: Kør OCR og PII-detektion i batches. Fem til ti tusinde filer pr. batch er en almindelig størrelse. Behandling kører om natten. Output er en PII-rapport og et anonymiseret tekstudtræk for hver fil.
Fase 3 — Sletningsopfyldelse: Den registrerede sender en anmodning med sit navn og periode. Søg i de anonymiserede udtræk efter deres tokens. Find filerne. Redigér dem. Log handlingen.
Fase 4 — Løbende overholdelse: Put nye scannede filer igennem den samme pipeline, inden de arkiveres. Opbevar PII-rapporter som Artikel 30-dokumentation for behandlingsaktiviteter.
Casestudie: Advokatfirmaets Arkiv
En revision af et advokatfirma fandt 80.000 billedbaserede PDF-klientkontrakter scannet fra 1998 til 2010. Standard PII-værktøjer viste nul detektioner. Billedformatet var usynligt.
Femten tidligere klienter havde indsendt sletningsanmodninger i de foregående 12 måneder. Firmaet svarede: "Vi kan ikke bekræfte, at dine journaler er slettet." Det svar opfylder ikke GDPR Artikel 17.
Hvad firmaet gjorde:
- Kørte OCR og PII-detektion på alle 80.000 filer i batches af 5.000
- Behandlingen tog ca. tre uger
- Resultat: 80.000 anonymiserede tekstudtræk med rapporter pr. fil
- Byggede et søgbart indeks, der forbinder enheder med fil-ID'er
Efter behandling:
- Fund af filer for én registreret: gennemsnitligt 4 minutter
- Filer pr. anmodning: gennemsnitligt 6–8
- Redigeringstid pr. anmodning: 20–30 minutter
Alle 15 udestående anmodninger blev løst inden for 30 dage.
Hovedpunktet: overholdelseforpligtelsen eksisterede, inden behandlingen begyndte. Firmaet manglede blot de nødvendige værktøjer. OCR-baseret behandling skabte ikke en ny pligt. Den gjorde det muligt at opfylde en eksisterende pligt.
OCR-Grænser og Kvalitetsniveauer
Håndskrift har lavere OCR-nøjagtighed. Sæt en lavere konfidensgrænseverdi, inden håndskrevet indhold behandles.
Dårlig scankvalitet reducerer scorer. Kontrastforbedring og skævheds-korrektion hjælper, inden OCR kører.
Usædvanlige layouts — flerspaltede sider, gamle juridiske skrifttyper — kan også score lavere.
Angiv kvalitetsniveauer for overholdelsesarbejde:
- Over 95% sidenøjagtighed: kør automatisk behandling
- 80–95%: kør automatisk behandling, derefter menneskelig gennemgang af markerede enheder
- Under 80%: send til manuel gennemgang
En niveauopdelt tilgang giver tilsynsmyndighederne et klart svar på, hvordan du vurderede pålidelighed. De fleste automatiserede værktøjer håndterer filer med høj konfidence. En manuel kø håndterer resten. Gennemstrømningen forbliver høj. Overholdelsesk valiteten forbliver høj også.
Vores FAQ dækker almindelige spørgsmål om OCR-baseret behandling og krav til revisionsspor.