Opdateret for 2026

GDPR-revisioner afslører ofte den samme skjulte risiko: gamle billedbaserede PDF-arkiver.

Advokatfirmaer opbevarer 20 år gamle scannede klientfiler. Hospitaler gemmer årtier af patientskemaer. Offentlige myndigheder opbevarer scannede journaler. Banker har billedarkiverede lånesager.

Disse arkiver har ét fællestræk. Filerne er rasterbilleder — scannede PDF'er, TIFF eller JPEG. Der er intet tekstlag. Standard PII-værktøjer kan ikke læse dem. For de fleste anonymiseringsværktøjer eksisterer disse filer simpelthen ikke.

En udbredt forestilling: "Det er billedfiler — GDPR gælder ikke her."

GDPR Artikel 17(1) giver folk ret til sletning. Betragtning 26 fastslår, at anonymisering fjerner personoplysninger fra lovens anvendelsesområde. Ingen af dem indeholder en undtagelse for billedformater. Et advokatfirma, der ikke kan efterkomme en anmodning om sletning af en 15 år gammel klientfil, har et overholdelsesgab. Det har ikke en fritagelse.

Se vores compliance-oversigt og sikkerhedspraksis for, hvordan vi understøtter GDPR.

Sådan Fungerer Detektionspipelinen

Processen kører i tre faser.

Fase 1 — OCR

OCR-motoren læser billedet og udtrækker tekst. Den registrerer positionen af hvert ord. Output er maskinlæsbar tekst med koordinater. Nøjagtigheden falder ved håndskrift, falmet blæk eller gamle skrifttyper.

Fase 2 — NLP-Enhedsdetektion

Named Entity Recognition (NER) scanner OCR-teksten. Den finder personnavne, organisationer og steder. Mønstermatching tilføjer CPR-numre, telefonnumre og kontonumre. Hvert fund får en konfidenscore.

Fase 3 — Anonymisering

Registrerede enheder erstattes i tekstoutputtet. Det originale billede ændres ikke. Ændring af billedet kræver separat redigeringsværktøj. Den anonymiserede tekst understøtter sletningsanmodninger, DSAR-svar og overholdelsesdokumentation.

Moderne OCR-motorer opnår 98–99% tegnøjagtighed på rene trykte sider. Håndskrift eller forringede scans falder til 85–92%. Enhedsniveauøjagtighed er typisk højere end tegnniveauøjagtighed. Et navn kan identificeres, selv når et par bogstaver er forkerte.

Den praktiske konsekvens: OCR-nøjagtighed påvirker, hvor mange enheder du finder. Den afgør ikke, om metoden virker. Selv ved 90% nøjagtighed finder du de fleste navne og numre. Kvalitetsniveauer er stadig nødvendige. Metoden i sig selv er sund.

Behandling af et Stort Arkiv

Store ældre arkiver følger et arbejdsflow med fire faser.

Fase 1 — Inventar: List alle billedbaserede arkiver. Notér kildesystem og datointerval. Prioritér journaler med høj sletningsrisiko. Klientvendte filer kommer før interne.

Fase 2 — Batchbehandling: Kør OCR og PII-detektion i batches. Fem til ti tusinde filer pr. batch er en almindelig størrelse. Behandling kører om natten. Output er en PII-rapport og et anonymiseret tekstudtræk for hver fil.

Fase 3 — Sletningsopfyldelse: Den registrerede sender en anmodning med sit navn og periode. Søg i de anonymiserede udtræk efter deres tokens. Find filerne. Redigér dem. Log handlingen.

Fase 4 — Løbende overholdelse: Put nye scannede filer igennem den samme pipeline, inden de arkiveres. Opbevar PII-rapporter som Artikel 30-dokumentation for behandlingsaktiviteter.

Casestudie: Advokatfirmaets Arkiv

En revision af et advokatfirma fandt 80.000 billedbaserede PDF-klientkontrakter scannet fra 1998 til 2010. Standard PII-værktøjer viste nul detektioner. Billedformatet var usynligt.

Femten tidligere klienter havde indsendt sletningsanmodninger i de foregående 12 måneder. Firmaet svarede: "Vi kan ikke bekræfte, at dine journaler er slettet." Det svar opfylder ikke GDPR Artikel 17.

Hvad firmaet gjorde:

Kørte OCR og PII-detektion på alle 80.000 filer i batches af 5.000
Behandlingen tog ca. tre uger
Resultat: 80.000 anonymiserede tekstudtræk med rapporter pr. fil
Byggede et søgbart indeks, der forbinder enheder med fil-ID'er

Efter behandling:

Fund af filer for én registreret: gennemsnitligt 4 minutter
Filer pr. anmodning: gennemsnitligt 6–8
Redigeringstid pr. anmodning: 20–30 minutter

Alle 15 udestående anmodninger blev løst inden for 30 dage.

Hovedpunktet: overholdelseforpligtelsen eksisterede, inden behandlingen begyndte. Firmaet manglede blot de nødvendige værktøjer. OCR-baseret behandling skabte ikke en ny pligt. Den gjorde det muligt at opfylde en eksisterende pligt.

OCR-Grænser og Kvalitetsniveauer

Håndskrift har lavere OCR-nøjagtighed. Sæt en lavere konfidensgrænseverdi, inden håndskrevet indhold behandles.

Dårlig scankvalitet reducerer scorer. Kontrastforbedring og skævheds-korrektion hjælper, inden OCR kører.

Usædvanlige layouts — flerspaltede sider, gamle juridiske skrifttyper — kan også score lavere.

Angiv kvalitetsniveauer for overholdelsesarbejde:

Over 95% sidenøjagtighed: kør automatisk behandling
80–95%: kør automatisk behandling, derefter menneskelig gennemgang af markerede enheder
Under 80%: send til manuel gennemgang

En niveauopdelt tilgang giver tilsynsmyndighederne et klart svar på, hvordan du vurderede pålidelighed. De fleste automatiserede værktøjer håndterer filer med høj konfidence. En manuel kø håndterer resten. Gennemstrømningen forbliver høj. Overholdelsesk valiteten forbliver høj også.

Vores FAQ dækker almindelige spørgsmål om OCR-baseret behandling og krav til revisionsspor.

Kilder

Relaterede Artikler

GDPR & Overholdelse

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.

Start Gratis Prøveperiode Se Funktioner

GDPR og Ældre Scannede Dokumenter: OCR og PII

Sådan Fungerer Detektionspipelinen

Behandling af et Stort Arkiv

Casestudie: Advokatfirmaets Arkiv

OCR-Grænser og Kvalitetsniveauer

Kilder

Relaterede Artikler

Selvhostede PII-Værktøjer Fejler Compliancerevisioner

Presidio Mangler 220+ GDPR-Enheder til EU

Konfigurationsdrift: En skjult GDPR-risiko

Klar til at beskytte dine data?

GDPR og Ældre Scannede Dokumenter: OCR og PII

GDPR og Ældre Scannede Filer: OCR til PII

Sådan Fungerer Detektionspipelinen

Behandling af et Stort Arkiv

Casestudie: Advokatfirmaets Arkiv

OCR-Grænser og Kvalitetsniveauer

Kilder

Relaterede Artikler

Selvhostede PII-Værktøjer Fejler Compliancerevisioner

Presidio Mangler 220+ GDPR-Enheder til EU

Konfigurationsdrift: En skjult GDPR-risiko

Klar til at beskytte dine data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow