RGPD et fichiers numérisés anciens : OCR pour la détection des DCP

Mis à jour pour 2026

Les audits RGPD font souvent apparaître le même risque caché : des archives PDF en mode image antérieures à la numérisation.

Les cabinets d'avocats conservent 20 ans de dossiers clients numérisés. Les hôpitaux gardent des décennies de formulaires patients. Les organismes publics stockent des archives numérisées. Les banques ont des dossiers de prêt imagés.

Ces archives partagent une caractéristique. Les fichiers sont des images raster — PDF numérisés, TIFF ou JPEG. Il n'y a pas de couche texte. Les outils PII standard ne peuvent pas les lire. Pour la plupart des outils d'anonymisation, ces fichiers n'existent tout simplement pas.

Une idée reçue : « Ce sont des fichiers image — le RGPD ne s'applique pas. »

L'article 17(1) du RGPD donne aux personnes le droit à l'effacement. Le considérant 26 précise que l'anonymisation fait sortir les informations du champ d'application. Aucune disposition ne prévoit d'exception pour les formats image. Un cabinet qui ne peut pas traiter une demande d'effacement concernant un dossier vieux de 15 ans a une lacune de conformité, pas une exemption.

Consultez notre aperçu de la conformité et nos pratiques de sécurité pour voir comment nous soutenons le RGPD.

Fonctionnement du pipeline de détection

Le processus se déroule en trois étapes.

Étape 1 — OCR

Le moteur OCR lit l'image et extrait le texte. Il enregistre la position de chaque mot. La sortie est un texte lisible par machine avec des coordonnées. La précision diminue en présence d'écriture manuscrite, d'encre fanée ou d'anciennes typographies.

Étape 2 — Détection d'entités NLP

La Reconnaissance d'Entités Nommées (NER) analyse le texte OCR. Elle trouve des noms de personnes, des organisations et des lieux. La correspondance de motifs ajoute les numéros de sécurité sociale, numéros de téléphone et numéros de compte. Chaque résultat reçoit un score de confiance.

Étape 3 — Anonymisation

Les entités détectées sont remplacées dans le texte de sortie. L'image originale n'est pas modifiée. Modifier l'image nécessite un outil de caviardage séparé. Le texte anonymisé prend en charge les demandes d'effacement, les réponses aux DSAR et les preuves de conformité.

Les moteurs OCR modernes atteignent 98–99 % de précision au niveau des caractères sur des pages imprimées propres. L'écriture manuscrite ou les numérisations dégradées tombent à 85–92 %. La précision au niveau des entités tend à être plus élevée qu'au niveau des caractères. Un nom peut être identifié même si quelques lettres sont incorrectes.

L'enseignement pratique : la précision OCR affecte le nombre d'entités détectées. Elle ne détermine pas si la méthode fonctionne. Même à 90 % de précision, vous trouvez la plupart des noms et numéros. Des niveaux de qualité restent nécessaires. La méthode elle-même est solide.

Traitement d'une grande archive

Les grandes archives patrimoniales suivent un flux de travail en quatre phases.

Phase 1 — Inventaire : Lister toutes les archives en mode image par système source et plage de dates. Prioriser les enregistrements à risque élevé d'effacement. Les dossiers clients passent avant les dossiers internes.

Phase 2 — Traitement par lots : Exécuter l'OCR et la détection PII par lots. Cinq à dix mille fichiers par lot est une taille courante. Le traitement s'effectue de nuit. La sortie est un rapport PII et un extrait de texte anonymisé pour chaque fichier.

Phase 3 — Traitement des demandes d'effacement : La personne concernée envoie une demande avec son nom et la période. Rechercher dans les extraits anonymisés leurs tokens. Trouver les fichiers. Les caviarder. Consigner l'action.

Phase 4 — Conformité continue : Faire passer les nouveaux fichiers numérisés par le même pipeline avant archivage. Conserver les rapports PII comme preuve pour le Registre des Activités de Traitement de l'Article 30.

Étude de cas : archive d'un cabinet d'avocats

Un audit de cabinet a trouvé 80 000 contrats clients PDF en mode image numérisés entre 1998 et 2010. Les outils PII standard n'ont montré aucune détection. Le format image était invisible.

Quinze anciens clients avaient soumis des demandes d'effacement au cours des 12 mois précédents. Le cabinet a répondu : « Nous ne pouvons pas confirmer que vos données ont été effacées. » Cette réponse ne satisfait pas à l'Article 17 du RGPD.

Ce que le cabinet a fait :

OCR et détection PII sur les 80 000 fichiers par lots de 5 000
Durée de traitement : environ trois semaines
Résultat : 80 000 extraits de texte anonymisés avec des rapports par fichier
Index consultable liant les entités aux identifiants de fichier

Après le traitement :

Temps moyen pour trouver les fichiers d'une personne : 4 minutes
Fichiers par demande : 6–8 en moyenne
Temps de caviardage par demande : 20–30 minutes

Les 15 demandes en suspens ont toutes été résolues dans les 30 jours.

Point essentiel : l'obligation de conformité existait avant le traitement. Le cabinet manquait simplement des outils pour la respecter. Le traitement OCR n'a pas créé une nouvelle obligation. Il a rendu possible d'honorer une obligation existante.

Limites OCR et niveaux de qualité

L'écriture manuscrite a une précision OCR plus faible. Définir un seuil de confiance plus bas avant de traiter le contenu manuscrit.

La mauvaise qualité de numérisation réduit les scores. L'amélioration du contraste et le redressement aident avant le lancement de l'OCR.

Les mises en page inhabituelles — pages multicolonnes, anciennes typographies juridiques — peuvent également obtenir des scores plus faibles.

Définir des niveaux de qualité pour les travaux de conformité :

Au-dessus de 95 % de précision page : traitement automatique
80–95 % : traitement automatique, puis révision humaine des entités marquées
En dessous de 80 % : révision manuelle requise

Une approche par niveaux donne aux régulateurs une réponse claire sur la façon dont vous avez évalué la fiabilité. Les outils automatisés gèrent les fichiers à haute confiance. Une file d'attente manuelle gère le reste. Le débit reste élevé. La qualité de conformité aussi.

Notre FAQ répond aux questions courantes sur le traitement OCR et les exigences de piste d'audit.

Sources

Articles connexes

GDPR & Conformité

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

Commencer l'essai gratuit Voir les fonctionnalités

RGPD et archives de documents hérités...

RGPD et fichiers numérisés anciens : OCR pour la détection des DCP

Fonctionnement du pipeline de détection

Traitement d'une grande archive

Étude de cas : archive d'un cabinet d'avocats

Limites OCR et niveaux de qualité

Sources

Articles connexes

Pourquoi les outils PII auto-hébergés échouent aux...

Ce que Presidio oublie : Les 220+ types d'entités...

Le Coût de la Conformité d'une Rédaction Incohérente...

Prêt à protéger vos données ?

RGPD et archives de documents hérités...

RGPD et fichiers numérisés anciens : OCR pour la détection des DCP

Fonctionnement du pipeline de détection

Traitement d'une grande archive

Étude de cas : archive d'un cabinet d'avocats

Limites OCR et niveaux de qualité

Sources

Articles connexes

Pourquoi les outils PII auto-hébergés échouent aux...

Ce que Presidio oublie : Les 220+ types d'entités...

Le Coût de la Conformité d'une Rédaction Incohérente...

Prêt à protéger vos données ?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow