By · Last updated 2026-06-05

Tilbage til BlogGDPR & Overholdelse

GDPR og Ældre Scannede Dokumenter: OCR og PII

GDPR's ret til sletning gælder for personoplysninger 'uanset format.' Billedbaserede PDF'er fra papirarkiver er ikke undtaget.

June 5, 20267 min læsning
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR og Ældre Scannede Filer: OCR til PII

Opdateret for 2026

GDPR-revisioner afslører ofte den samme skjulte risiko: gamle billedbaserede PDF-arkiver.

Advokatfirmaer opbevarer 20 år gamle scannede klientfiler. Hospitaler gemmer årtier af patientskemaer. Offentlige myndigheder opbevarer scannede journaler. Banker har billedarkiverede lånesager.

Disse arkiver har ét fællestræk. Filerne er rasterbilleder — scannede PDF'er, TIFF eller JPEG. Der er intet tekstlag. Standard PII-værktøjer kan ikke læse dem. For de fleste anonymiseringsværktøjer eksisterer disse filer simpelthen ikke.

En udbredt forestilling: "Det er billedfiler — GDPR gælder ikke her."

GDPR Artikel 17(1) giver folk ret til sletning. Betragtning 26 fastslår, at anonymisering fjerner personoplysninger fra lovens anvendelsesområde. Ingen af dem indeholder en undtagelse for billedformater. Et advokatfirma, der ikke kan efterkomme en anmodning om sletning af en 15 år gammel klientfil, har et overholdelsesgab. Det har ikke en fritagelse.

Se vores compliance-oversigt og sikkerhedspraksis for, hvordan vi understøtter GDPR.

Sådan Fungerer Detektionspipelinen

Processen kører i tre faser.

Fase 1 — OCR

OCR-motoren læser billedet og udtrækker tekst. Den registrerer positionen af hvert ord. Output er maskinlæsbar tekst med koordinater. Nøjagtigheden falder ved håndskrift, falmet blæk eller gamle skrifttyper.

Fase 2 — NLP-Enhedsdetektion

Named Entity Recognition (NER) scanner OCR-teksten. Den finder personnavne, organisationer og steder. Mønstermatching tilføjer CPR-numre, telefonnumre og kontonumre. Hvert fund får en konfidenscore.

Fase 3 — Anonymisering

Registrerede enheder erstattes i tekstoutputtet. Det originale billede ændres ikke. Ændring af billedet kræver separat redigeringsværktøj. Den anonymiserede tekst understøtter sletningsanmodninger, DSAR-svar og overholdelsesdokumentation.

Moderne OCR-motorer opnår 98–99% tegnøjagtighed på rene trykte sider. Håndskrift eller forringede scans falder til 85–92%. Enhedsniveauøjagtighed er typisk højere end tegnniveauøjagtighed. Et navn kan identificeres, selv når et par bogstaver er forkerte.

Den praktiske konsekvens: OCR-nøjagtighed påvirker, hvor mange enheder du finder. Den afgør ikke, om metoden virker. Selv ved 90% nøjagtighed finder du de fleste navne og numre. Kvalitetsniveauer er stadig nødvendige. Metoden i sig selv er sund.

Behandling af et Stort Arkiv

Store ældre arkiver følger et arbejdsflow med fire faser.

Fase 1 — Inventar: List alle billedbaserede arkiver. Notér kildesystem og datointerval. Prioritér journaler med høj sletningsrisiko. Klientvendte filer kommer før interne.

Fase 2 — Batchbehandling: Kør OCR og PII-detektion i batches. Fem til ti tusinde filer pr. batch er en almindelig størrelse. Behandling kører om natten. Output er en PII-rapport og et anonymiseret tekstudtræk for hver fil.

Fase 3 — Sletningsopfyldelse: Den registrerede sender en anmodning med sit navn og periode. Søg i de anonymiserede udtræk efter deres tokens. Find filerne. Redigér dem. Log handlingen.

Fase 4 — Løbende overholdelse: Put nye scannede filer igennem den samme pipeline, inden de arkiveres. Opbevar PII-rapporter som Artikel 30-dokumentation for behandlingsaktiviteter.

Casestudie: Advokatfirmaets Arkiv

En revision af et advokatfirma fandt 80.000 billedbaserede PDF-klientkontrakter scannet fra 1998 til 2010. Standard PII-værktøjer viste nul detektioner. Billedformatet var usynligt.

Femten tidligere klienter havde indsendt sletningsanmodninger i de foregående 12 måneder. Firmaet svarede: "Vi kan ikke bekræfte, at dine journaler er slettet." Det svar opfylder ikke GDPR Artikel 17.

Hvad firmaet gjorde:

  • Kørte OCR og PII-detektion på alle 80.000 filer i batches af 5.000
  • Behandlingen tog ca. tre uger
  • Resultat: 80.000 anonymiserede tekstudtræk med rapporter pr. fil
  • Byggede et søgbart indeks, der forbinder enheder med fil-ID'er

Efter behandling:

  • Fund af filer for én registreret: gennemsnitligt 4 minutter
  • Filer pr. anmodning: gennemsnitligt 6–8
  • Redigeringstid pr. anmodning: 20–30 minutter

Alle 15 udestående anmodninger blev løst inden for 30 dage.

Hovedpunktet: overholdelseforpligtelsen eksisterede, inden behandlingen begyndte. Firmaet manglede blot de nødvendige værktøjer. OCR-baseret behandling skabte ikke en ny pligt. Den gjorde det muligt at opfylde en eksisterende pligt.

OCR-Grænser og Kvalitetsniveauer

Håndskrift har lavere OCR-nøjagtighed. Sæt en lavere konfidensgrænseverdi, inden håndskrevet indhold behandles.

Dårlig scankvalitet reducerer scorer. Kontrastforbedring og skævheds-korrektion hjælper, inden OCR kører.

Usædvanlige layouts — flerspaltede sider, gamle juridiske skrifttyper — kan også score lavere.

Angiv kvalitetsniveauer for overholdelsesarbejde:

  • Over 95% sidenøjagtighed: kør automatisk behandling
  • 80–95%: kør automatisk behandling, derefter menneskelig gennemgang af markerede enheder
  • Under 80%: send til manuel gennemgang

En niveauopdelt tilgang giver tilsynsmyndighederne et klart svar på, hvordan du vurderede pålidelighed. De fleste automatiserede værktøjer håndterer filer med høj konfidence. En manuel kø håndterer resten. Gennemstrømningen forbliver høj. Overholdelsesk valiteten forbliver høj også.

Vores FAQ dækker almindelige spørgsmål om OCR-baseret behandling og krav til revisionsspor.

Kilder

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.