By · Last updated 2026-06-05

Retour au blogGDPR & Conformité

RGPD et archives de documents hérités...

Le droit à l'effacement du RGPD s'applique aux données personnelles 'quel que soit le format'.

June 5, 20267 min de lecture
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

RGPD et fichiers numérisés anciens : OCR pour la détection des DCP

Mis à jour pour 2026

Les audits RGPD font souvent apparaître le même risque caché : des archives PDF en mode image antérieures à la numérisation.

Les cabinets d'avocats conservent 20 ans de dossiers clients numérisés. Les hôpitaux gardent des décennies de formulaires patients. Les organismes publics stockent des archives numérisées. Les banques ont des dossiers de prêt imagés.

Ces archives partagent une caractéristique. Les fichiers sont des images raster — PDF numérisés, TIFF ou JPEG. Il n'y a pas de couche texte. Les outils PII standard ne peuvent pas les lire. Pour la plupart des outils d'anonymisation, ces fichiers n'existent tout simplement pas.

Une idée reçue : « Ce sont des fichiers image — le RGPD ne s'applique pas. »

L'article 17(1) du RGPD donne aux personnes le droit à l'effacement. Le considérant 26 précise que l'anonymisation fait sortir les informations du champ d'application. Aucune disposition ne prévoit d'exception pour les formats image. Un cabinet qui ne peut pas traiter une demande d'effacement concernant un dossier vieux de 15 ans a une lacune de conformité, pas une exemption.

Consultez notre aperçu de la conformité et nos pratiques de sécurité pour voir comment nous soutenons le RGPD.

Fonctionnement du pipeline de détection

Le processus se déroule en trois étapes.

Étape 1 — OCR

Le moteur OCR lit l'image et extrait le texte. Il enregistre la position de chaque mot. La sortie est un texte lisible par machine avec des coordonnées. La précision diminue en présence d'écriture manuscrite, d'encre fanée ou d'anciennes typographies.

Étape 2 — Détection d'entités NLP

La Reconnaissance d'Entités Nommées (NER) analyse le texte OCR. Elle trouve des noms de personnes, des organisations et des lieux. La correspondance de motifs ajoute les numéros de sécurité sociale, numéros de téléphone et numéros de compte. Chaque résultat reçoit un score de confiance.

Étape 3 — Anonymisation

Les entités détectées sont remplacées dans le texte de sortie. L'image originale n'est pas modifiée. Modifier l'image nécessite un outil de caviardage séparé. Le texte anonymisé prend en charge les demandes d'effacement, les réponses aux DSAR et les preuves de conformité.

Les moteurs OCR modernes atteignent 98–99 % de précision au niveau des caractères sur des pages imprimées propres. L'écriture manuscrite ou les numérisations dégradées tombent à 85–92 %. La précision au niveau des entités tend à être plus élevée qu'au niveau des caractères. Un nom peut être identifié même si quelques lettres sont incorrectes.

L'enseignement pratique : la précision OCR affecte le nombre d'entités détectées. Elle ne détermine pas si la méthode fonctionne. Même à 90 % de précision, vous trouvez la plupart des noms et numéros. Des niveaux de qualité restent nécessaires. La méthode elle-même est solide.

Traitement d'une grande archive

Les grandes archives patrimoniales suivent un flux de travail en quatre phases.

Phase 1 — Inventaire : Lister toutes les archives en mode image par système source et plage de dates. Prioriser les enregistrements à risque élevé d'effacement. Les dossiers clients passent avant les dossiers internes.

Phase 2 — Traitement par lots : Exécuter l'OCR et la détection PII par lots. Cinq à dix mille fichiers par lot est une taille courante. Le traitement s'effectue de nuit. La sortie est un rapport PII et un extrait de texte anonymisé pour chaque fichier.

Phase 3 — Traitement des demandes d'effacement : La personne concernée envoie une demande avec son nom et la période. Rechercher dans les extraits anonymisés leurs tokens. Trouver les fichiers. Les caviarder. Consigner l'action.

Phase 4 — Conformité continue : Faire passer les nouveaux fichiers numérisés par le même pipeline avant archivage. Conserver les rapports PII comme preuve pour le Registre des Activités de Traitement de l'Article 30.

Étude de cas : archive d'un cabinet d'avocats

Un audit de cabinet a trouvé 80 000 contrats clients PDF en mode image numérisés entre 1998 et 2010. Les outils PII standard n'ont montré aucune détection. Le format image était invisible.

Quinze anciens clients avaient soumis des demandes d'effacement au cours des 12 mois précédents. Le cabinet a répondu : « Nous ne pouvons pas confirmer que vos données ont été effacées. » Cette réponse ne satisfait pas à l'Article 17 du RGPD.

Ce que le cabinet a fait :

  • OCR et détection PII sur les 80 000 fichiers par lots de 5 000
  • Durée de traitement : environ trois semaines
  • Résultat : 80 000 extraits de texte anonymisés avec des rapports par fichier
  • Index consultable liant les entités aux identifiants de fichier

Après le traitement :

  • Temps moyen pour trouver les fichiers d'une personne : 4 minutes
  • Fichiers par demande : 6–8 en moyenne
  • Temps de caviardage par demande : 20–30 minutes

Les 15 demandes en suspens ont toutes été résolues dans les 30 jours.

Point essentiel : l'obligation de conformité existait avant le traitement. Le cabinet manquait simplement des outils pour la respecter. Le traitement OCR n'a pas créé une nouvelle obligation. Il a rendu possible d'honorer une obligation existante.

Limites OCR et niveaux de qualité

L'écriture manuscrite a une précision OCR plus faible. Définir un seuil de confiance plus bas avant de traiter le contenu manuscrit.

La mauvaise qualité de numérisation réduit les scores. L'amélioration du contraste et le redressement aident avant le lancement de l'OCR.

Les mises en page inhabituelles — pages multicolonnes, anciennes typographies juridiques — peuvent également obtenir des scores plus faibles.

Définir des niveaux de qualité pour les travaux de conformité :

  • Au-dessus de 95 % de précision page : traitement automatique
  • 80–95 % : traitement automatique, puis révision humaine des entités marquées
  • En dessous de 80 % : révision manuelle requise

Une approche par niveaux donne aux régulateurs une réponse claire sur la façon dont vous avez évalué la fiabilité. Les outils automatisés gèrent les fichiers à haute confiance. Une file d'attente manuelle gère le reste. Le débit reste élevé. La qualité de conformité aussi.

Notre FAQ répond aux questions courantes sur le traitement OCR et les exigences de piste d'audit.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.