AVG En Legacy Gescande Bestanden: OCR Voor PII

Bijgewerkt voor 2026

AVG-audits brengen keer op keer hetzelfde verborgen risico aan het licht: oude archieven van op afbeeldingen gebaseerde pdf's.

Advocatenkantoren bewaren 20 jaar aan gescande cliëntbestanden. Ziekenhuizen houden tientallen jaren aan patiëntformulieren bij. Overheidsinstanties slaan gescande dossiers op. Banken hebben gedigitaliseerde leningdossiers.

Deze archieven delen één kenmerk. De bestanden zijn rasterafbeeldingen — gescande pdf's, TIFF of JPEG. Er is geen tekstlaag. Standaard PII-tools kunnen ze niet lezen. Voor de meeste anonimiseringstools bestaan deze bestanden niet.

Een veelgehoorde opvatting: "Dit zijn afbeeldingsbestanden — de AVG is niet van toepassing."

AVG-artikel 17(1) geeft mensen het recht op wissing. Overweging 26 stelt dat anonimisering persoonsgegevens buiten het toepassingsgebied brengt. Geen van beide maakt een uitzondering voor afbeeldingsformaten. Een advocatenkantoor dat een verzoek tot wissing voor een 15 jaar oud cliëntbestand niet kan uitvoeren, heeft een compliance-lacune. Geen vrijstelling.

Zie ons complianceoverzicht en beveiligingspraktijken voor hoe wij AVG-naleving ondersteunen.

Hoe De Detectiepipeline Werkt

Het proces verloopt in drie fasen.

Fase 1 — OCR

De OCR-engine leest de afbeelding en extraheert tekst. De positie van elk woord wordt vastgelegd. De uitvoer is machineleesbare tekst met coördinaten. De nauwkeurigheid daalt bij handschrift, vervaagde inkt of oude lettertypen.

Fase 2 — NLP-entiteitsdetectie

Named Entity Recognition (NER) scant de OCR-tekst. Het vindt persoonsnamen, organisaties en locaties. Patroonherkenning voegt BSN's, telefoonnummers en accountnummers toe. Elke treffer krijgt een betrouwbaarheidsscore.

Fase 3 — Anonimisering

Gedetecteerde entiteiten worden vervangen in de tekstuitvoer. De originele afbeelding wordt niet gewijzigd. Het wijzigen van de afbeelding vereist afzonderlijke redactietooling. De geanonimiseerde tekst ondersteunt wisverzoeken, DSAR-reacties en compliancedossiers.

Moderne OCR-engines bereiken 98–99% tekennauwkeurigheid op schone gedrukte pagina's. Handschrift of verslechterde scans dalen naar 85–92%. Nauwkeurigheid op entiteitsniveau is doorgaans hoger dan op tekenniveau. Een naam kan worden geïdentificeerd zelfs wanneer enkele letters verkeerd zijn.

De praktische conclusie: OCR-nauwkeurigheid beïnvloedt hoeveel entiteiten u vindt. Het bepaalt niet of de methode werkt. Zelfs bij 90% nauwkeurigheid vindt u de meeste namen en nummers. Kwaliteitsniveaus zijn nog steeds nodig. De methode zelf is deugdelijk.

Een Groot Archief Verwerken

Grote legacy-archieven volgen een vierfasen-workflow.

Fase 1 — Inventarisatie: Maak een lijst van alle op afbeeldingen gebaseerde archieven. Noteer bronsysteem en datumbereik. Zet records met het hoogste wisrisco bovenaan. Cliëntgerichte bestanden gaan voor interne.

Fase 2 — Batchverwerking: Voer OCR en PII-detectie uit in batches. Vijf tot tienduizend bestanden per batch is een veelgebruikte omvang. Verwerking vindt 's nachts plaats. De uitvoer is een PII-rapport en een geanonimiseerd tekstextract voor elk bestand.

Fase 3 — Wisuitvoering: De betrokkene stuurt een verzoek met zijn naam en de periode. Zoek de geanonimiseerde extracten op hun tokens. Vind de bestanden. Redacteer ze. Log de actie.

Fase 4 — Doorlopende compliance: Leid nieuwe gescande bestanden door dezelfde pipeline vóór archivering. Bewaar PII-rapporten als bewijsmateriaal voor artikel 30-verwerkingsactiviteiten-registers.

Casestudy: Archief Advocatenkantoor

Een advocatenkantooraudit vond 80.000 op afbeeldingen gebaseerde pdf-cliëntcontracten gescand van 1998 tot 2010. Standaard PII-tools toonden nul detecties. Het afbeeldingsformaat was onzichtbaar.

Vijftien voormalige cliënten hadden de afgelopen 12 maanden wisverzoeken ingediend. Het kantoor zei: "Wij kunnen niet bevestigen dat uw records zijn gewist." Dat antwoord voldoet niet aan AVG-artikel 17.

Wat het kantoor deed:

OCR en PII-detectie uitgevoerd op alle 80.000 bestanden in batches van 5.000
Verwerking duurde ongeveer drie weken
Resultaat: 80.000 geanonimiseerde tekstextracten met rapporten per bestand
Een doorzoekbare index gebouwd die entiteiten koppelt aan bestands-ID's

Na verwerking:

Bestanden vinden voor één betrokkene: gemiddeld 4 minuten
Bestanden per verzoek: gemiddeld 6–8
Redactietijd per verzoek: 20–30 minuten

Alle 15 openstaande verzoeken werden binnen 30 dagen opgelost.

Het kernpunt: de complianceverplichting bestond al vóór de verwerking. Het kantoor had alleen de tools niet om eraan te voldoen. Op OCR gebaseerde verwerking creëerde geen nieuwe plicht. Het maakte een bestaande plicht uitvoerbaar.

OCR-Beperkingen En Kwaliteitsniveaus

Handschrift heeft een lagere OCR-nauwkeurigheid. Stel een lagere betrouwbaarheidsdrempel in vóór het verwerken van handgeschreven inhoud.

Slechte scankwaliteit verlaagt scores. Contrastverbetering en de-skewing helpen vóór OCR.

Ongebruikelijke lay-outs — meerkolomspagina's, oude juridische lettertypen — kunnen ook lager scoren.

Stel kwaliteitsniveaus in voor compliancewerk:

Boven 95% paginanauwkeurigheid: geautomatiseerde verwerking uitvoeren
80–95%: geautomatiseerde verwerking uitvoeren, dan menselijke review voor gemarkeerde entiteiten
Onder 80%: naar handmatige review sturen

Een gelaagde aanpak geeft toezichthouders een duidelijk antwoord over hoe u betrouwbaarheid heeft beoordeeld. De meeste geautomatiseerde tools verwerken de hoog-vertrouwen bestanden. Een handmatige wachtrij verwerkt de rest. De doorvoer blijft hoog. De compliancekwaliteit blijft ook hoog.

Onze FAQ behandelt veelgestelde vragen over op OCR gebaseerde verwerking en auditvereisten.

Bronnen

Gerelateerde Artikelen

GDPR & Naleving

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

Start Gratis Proefperiode Bekijk Kenmerken

AVG En Legacy Gescande Documenten: OCR + PII

AVG En Legacy Gescande Bestanden: OCR Voor PII

Hoe De Detectiepipeline Werkt

Een Groot Archief Verwerken

Casestudy: Archief Advocatenkantoor

OCR-Beperkingen En Kwaliteitsniveaus

Bronnen

Gerelateerde Artikelen

Zelf-gehoste PII faalt compliance-audits

Presidio mist 220+ GDPR-entiteiten

Configuratiedrift: een verborgen GDPR-risico

Klaar om uw gegevens te beschermen?

AVG En Legacy Gescande Documenten: OCR + PII

AVG En Legacy Gescande Bestanden: OCR Voor PII

Hoe De Detectiepipeline Werkt

Een Groot Archief Verwerken

Casestudy: Archief Advocatenkantoor

OCR-Beperkingen En Kwaliteitsniveaus

Bronnen

Gerelateerde Artikelen

Zelf-gehoste PII faalt compliance-audits

Presidio mist 220+ GDPR-entiteiten

Configuratiedrift: een verborgen GDPR-risico

Klaar om uw gegevens te beschermen?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow