AVG En Legacy Gescande Bestanden: OCR Voor PII
Bijgewerkt voor 2026
AVG-audits brengen keer op keer hetzelfde verborgen risico aan het licht: oude archieven van op afbeeldingen gebaseerde pdf's.
Advocatenkantoren bewaren 20 jaar aan gescande cliëntbestanden. Ziekenhuizen houden tientallen jaren aan patiëntformulieren bij. Overheidsinstanties slaan gescande dossiers op. Banken hebben gedigitaliseerde leningdossiers.
Deze archieven delen één kenmerk. De bestanden zijn rasterafbeeldingen — gescande pdf's, TIFF of JPEG. Er is geen tekstlaag. Standaard PII-tools kunnen ze niet lezen. Voor de meeste anonimiseringstools bestaan deze bestanden niet.
Een veelgehoorde opvatting: "Dit zijn afbeeldingsbestanden — de AVG is niet van toepassing."
AVG-artikel 17(1) geeft mensen het recht op wissing. Overweging 26 stelt dat anonimisering persoonsgegevens buiten het toepassingsgebied brengt. Geen van beide maakt een uitzondering voor afbeeldingsformaten. Een advocatenkantoor dat een verzoek tot wissing voor een 15 jaar oud cliëntbestand niet kan uitvoeren, heeft een compliance-lacune. Geen vrijstelling.
Zie ons complianceoverzicht en beveiligingspraktijken voor hoe wij AVG-naleving ondersteunen.
Hoe De Detectiepipeline Werkt
Het proces verloopt in drie fasen.
Fase 1 — OCR
De OCR-engine leest de afbeelding en extraheert tekst. De positie van elk woord wordt vastgelegd. De uitvoer is machineleesbare tekst met coördinaten. De nauwkeurigheid daalt bij handschrift, vervaagde inkt of oude lettertypen.
Fase 2 — NLP-entiteitsdetectie
Named Entity Recognition (NER) scant de OCR-tekst. Het vindt persoonsnamen, organisaties en locaties. Patroonherkenning voegt BSN's, telefoonnummers en accountnummers toe. Elke treffer krijgt een betrouwbaarheidsscore.
Fase 3 — Anonimisering
Gedetecteerde entiteiten worden vervangen in de tekstuitvoer. De originele afbeelding wordt niet gewijzigd. Het wijzigen van de afbeelding vereist afzonderlijke redactietooling. De geanonimiseerde tekst ondersteunt wisverzoeken, DSAR-reacties en compliancedossiers.
Moderne OCR-engines bereiken 98–99% tekennauwkeurigheid op schone gedrukte pagina's. Handschrift of verslechterde scans dalen naar 85–92%. Nauwkeurigheid op entiteitsniveau is doorgaans hoger dan op tekenniveau. Een naam kan worden geïdentificeerd zelfs wanneer enkele letters verkeerd zijn.
De praktische conclusie: OCR-nauwkeurigheid beïnvloedt hoeveel entiteiten u vindt. Het bepaalt niet of de methode werkt. Zelfs bij 90% nauwkeurigheid vindt u de meeste namen en nummers. Kwaliteitsniveaus zijn nog steeds nodig. De methode zelf is deugdelijk.
Een Groot Archief Verwerken
Grote legacy-archieven volgen een vierfasen-workflow.
Fase 1 — Inventarisatie: Maak een lijst van alle op afbeeldingen gebaseerde archieven. Noteer bronsysteem en datumbereik. Zet records met het hoogste wisrisco bovenaan. Cliëntgerichte bestanden gaan voor interne.
Fase 2 — Batchverwerking: Voer OCR en PII-detectie uit in batches. Vijf tot tienduizend bestanden per batch is een veelgebruikte omvang. Verwerking vindt 's nachts plaats. De uitvoer is een PII-rapport en een geanonimiseerd tekstextract voor elk bestand.
Fase 3 — Wisuitvoering: De betrokkene stuurt een verzoek met zijn naam en de periode. Zoek de geanonimiseerde extracten op hun tokens. Vind de bestanden. Redacteer ze. Log de actie.
Fase 4 — Doorlopende compliance: Leid nieuwe gescande bestanden door dezelfde pipeline vóór archivering. Bewaar PII-rapporten als bewijsmateriaal voor artikel 30-verwerkingsactiviteiten-registers.
Casestudy: Archief Advocatenkantoor
Een advocatenkantooraudit vond 80.000 op afbeeldingen gebaseerde pdf-cliëntcontracten gescand van 1998 tot 2010. Standaard PII-tools toonden nul detecties. Het afbeeldingsformaat was onzichtbaar.
Vijftien voormalige cliënten hadden de afgelopen 12 maanden wisverzoeken ingediend. Het kantoor zei: "Wij kunnen niet bevestigen dat uw records zijn gewist." Dat antwoord voldoet niet aan AVG-artikel 17.
Wat het kantoor deed:
- OCR en PII-detectie uitgevoerd op alle 80.000 bestanden in batches van 5.000
- Verwerking duurde ongeveer drie weken
- Resultaat: 80.000 geanonimiseerde tekstextracten met rapporten per bestand
- Een doorzoekbare index gebouwd die entiteiten koppelt aan bestands-ID's
Na verwerking:
- Bestanden vinden voor één betrokkene: gemiddeld 4 minuten
- Bestanden per verzoek: gemiddeld 6–8
- Redactietijd per verzoek: 20–30 minuten
Alle 15 openstaande verzoeken werden binnen 30 dagen opgelost.
Het kernpunt: de complianceverplichting bestond al vóór de verwerking. Het kantoor had alleen de tools niet om eraan te voldoen. Op OCR gebaseerde verwerking creëerde geen nieuwe plicht. Het maakte een bestaande plicht uitvoerbaar.
OCR-Beperkingen En Kwaliteitsniveaus
Handschrift heeft een lagere OCR-nauwkeurigheid. Stel een lagere betrouwbaarheidsdrempel in vóór het verwerken van handgeschreven inhoud.
Slechte scankwaliteit verlaagt scores. Contrastverbetering en de-skewing helpen vóór OCR.
Ongebruikelijke lay-outs — meerkolomspagina's, oude juridische lettertypen — kunnen ook lager scoren.
Stel kwaliteitsniveaus in voor compliancewerk:
- Boven 95% paginanauwkeurigheid: geautomatiseerde verwerking uitvoeren
- 80–95%: geautomatiseerde verwerking uitvoeren, dan menselijke review voor gemarkeerde entiteiten
- Onder 80%: naar handmatige review sturen
Een gelaagde aanpak geeft toezichthouders een duidelijk antwoord over hoe u betrouwbaarheid heeft beoordeeld. De meeste geautomatiseerde tools verwerken de hoog-vertrouwen bestanden. Een handmatige wachtrij verwerkt de rest. De doorvoer blijft hoog. De compliancekwaliteit blijft ook hoog.
Onze FAQ behandelt veelgestelde vragen over op OCR gebaseerde verwerking en auditvereisten.