anonym.legal

By · Last updated 2026-06-05

Terug naar BlogGDPR & Naleving

AVG En Legacy Gescande Documenten: OCR + PII

Het AVG-recht op verwijdering geldt voor persoonsgegevens 'ongeacht het formaat.' Op afbeeldingen gebaseerde pdf's uit papieren archieven zijn niet vrijgesteld.

June 5, 20267 min lezen
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

AVG En Legacy Gescande Bestanden: OCR Voor PII

Bijgewerkt voor 2026

AVG-audits brengen keer op keer hetzelfde verborgen risico aan het licht: oude archieven van op afbeeldingen gebaseerde pdf's.

Advocatenkantoren bewaren 20 jaar aan gescande cliëntbestanden. Ziekenhuizen houden tientallen jaren aan patiëntformulieren bij. Overheidsinstanties slaan gescande dossiers op. Banken hebben gedigitaliseerde leningdossiers.

Deze archieven delen één kenmerk. De bestanden zijn rasterafbeeldingen — gescande pdf's, TIFF of JPEG. Er is geen tekstlaag. Standaard PII-tools kunnen ze niet lezen. Voor de meeste anonimiseringstools bestaan deze bestanden niet.

Een veelgehoorde opvatting: "Dit zijn afbeeldingsbestanden — de AVG is niet van toepassing."

AVG-artikel 17(1) geeft mensen het recht op wissing. Overweging 26 stelt dat anonimisering persoonsgegevens buiten het toepassingsgebied brengt. Geen van beide maakt een uitzondering voor afbeeldingsformaten. Een advocatenkantoor dat een verzoek tot wissing voor een 15 jaar oud cliëntbestand niet kan uitvoeren, heeft een compliance-lacune. Geen vrijstelling.

Zie ons complianceoverzicht en beveiligingspraktijken voor hoe wij AVG-naleving ondersteunen.

Hoe De Detectiepipeline Werkt

Het proces verloopt in drie fasen.

Fase 1 — OCR

De OCR-engine leest de afbeelding en extraheert tekst. De positie van elk woord wordt vastgelegd. De uitvoer is machineleesbare tekst met coördinaten. De nauwkeurigheid daalt bij handschrift, vervaagde inkt of oude lettertypen.

Fase 2 — NLP-entiteitsdetectie

Named Entity Recognition (NER) scant de OCR-tekst. Het vindt persoonsnamen, organisaties en locaties. Patroonherkenning voegt BSN's, telefoonnummers en accountnummers toe. Elke treffer krijgt een betrouwbaarheidsscore.

Fase 3 — Anonimisering

Gedetecteerde entiteiten worden vervangen in de tekstuitvoer. De originele afbeelding wordt niet gewijzigd. Het wijzigen van de afbeelding vereist afzonderlijke redactietooling. De geanonimiseerde tekst ondersteunt wisverzoeken, DSAR-reacties en compliancedossiers.

Moderne OCR-engines bereiken 98–99% tekennauwkeurigheid op schone gedrukte pagina's. Handschrift of verslechterde scans dalen naar 85–92%. Nauwkeurigheid op entiteitsniveau is doorgaans hoger dan op tekenniveau. Een naam kan worden geïdentificeerd zelfs wanneer enkele letters verkeerd zijn.

De praktische conclusie: OCR-nauwkeurigheid beïnvloedt hoeveel entiteiten u vindt. Het bepaalt niet of de methode werkt. Zelfs bij 90% nauwkeurigheid vindt u de meeste namen en nummers. Kwaliteitsniveaus zijn nog steeds nodig. De methode zelf is deugdelijk.

Een Groot Archief Verwerken

Grote legacy-archieven volgen een vierfasen-workflow.

Fase 1 — Inventarisatie: Maak een lijst van alle op afbeeldingen gebaseerde archieven. Noteer bronsysteem en datumbereik. Zet records met het hoogste wisrisco bovenaan. Cliëntgerichte bestanden gaan voor interne.

Fase 2 — Batchverwerking: Voer OCR en PII-detectie uit in batches. Vijf tot tienduizend bestanden per batch is een veelgebruikte omvang. Verwerking vindt 's nachts plaats. De uitvoer is een PII-rapport en een geanonimiseerd tekstextract voor elk bestand.

Fase 3 — Wisuitvoering: De betrokkene stuurt een verzoek met zijn naam en de periode. Zoek de geanonimiseerde extracten op hun tokens. Vind de bestanden. Redacteer ze. Log de actie.

Fase 4 — Doorlopende compliance: Leid nieuwe gescande bestanden door dezelfde pipeline vóór archivering. Bewaar PII-rapporten als bewijsmateriaal voor artikel 30-verwerkingsactiviteiten-registers.

Casestudy: Archief Advocatenkantoor

Een advocatenkantooraudit vond 80.000 op afbeeldingen gebaseerde pdf-cliëntcontracten gescand van 1998 tot 2010. Standaard PII-tools toonden nul detecties. Het afbeeldingsformaat was onzichtbaar.

Vijftien voormalige cliënten hadden de afgelopen 12 maanden wisverzoeken ingediend. Het kantoor zei: "Wij kunnen niet bevestigen dat uw records zijn gewist." Dat antwoord voldoet niet aan AVG-artikel 17.

Wat het kantoor deed:

  • OCR en PII-detectie uitgevoerd op alle 80.000 bestanden in batches van 5.000
  • Verwerking duurde ongeveer drie weken
  • Resultaat: 80.000 geanonimiseerde tekstextracten met rapporten per bestand
  • Een doorzoekbare index gebouwd die entiteiten koppelt aan bestands-ID's

Na verwerking:

  • Bestanden vinden voor één betrokkene: gemiddeld 4 minuten
  • Bestanden per verzoek: gemiddeld 6–8
  • Redactietijd per verzoek: 20–30 minuten

Alle 15 openstaande verzoeken werden binnen 30 dagen opgelost.

Het kernpunt: de complianceverplichting bestond al vóór de verwerking. Het kantoor had alleen de tools niet om eraan te voldoen. Op OCR gebaseerde verwerking creëerde geen nieuwe plicht. Het maakte een bestaande plicht uitvoerbaar.

OCR-Beperkingen En Kwaliteitsniveaus

Handschrift heeft een lagere OCR-nauwkeurigheid. Stel een lagere betrouwbaarheidsdrempel in vóór het verwerken van handgeschreven inhoud.

Slechte scankwaliteit verlaagt scores. Contrastverbetering en de-skewing helpen vóór OCR.

Ongebruikelijke lay-outs — meerkolomspagina's, oude juridische lettertypen — kunnen ook lager scoren.

Stel kwaliteitsniveaus in voor compliancewerk:

  • Boven 95% paginanauwkeurigheid: geautomatiseerde verwerking uitvoeren
  • 80–95%: geautomatiseerde verwerking uitvoeren, dan menselijke review voor gemarkeerde entiteiten
  • Onder 80%: naar handmatige review sturen

Een gelaagde aanpak geeft toezichthouders een duidelijk antwoord over hoe u betrouwbaarheid heeft beoordeeld. De meeste geautomatiseerde tools verwerken de hoog-vertrouwen bestanden. Een handmatige wachtrij verwerkt de rest. De doorvoer blijft hoog. De compliancekwaliteit blijft ook hoog.

Onze FAQ behandelt veelgestelde vragen over op OCR gebaseerde verwerking en auditvereisten.

Bronnen

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.