Le problème des archives héritées dont personne ne parle
Les organisations réalisant des audits de conformité au RGPD découvrent fréquemment la même catégorie de risque caché : des archives PDF basées sur des images datant d'avant la mise en œuvre des programmes de numérisation.
Des cabinets juridiques avec 20 ans de dossiers clients numérisés. Des prestataires de santé avec des décennies de formulaires d'admission de patients numérisés. Des agences gouvernementales avec des dossiers historiques numérisés. Des banques avec des demandes de prêt et des documents de compte numérisés.
Ces archives ont une caractéristique commune : les documents sont stockés sous forme d'images numérisées (PDF raster, TIFF ou JPEG), et non sous forme de documents numériques basés sur du texte. Il n'y a pas de couche de texte à rechercher, pas de contenu lisible par machine pour les outils PII standard à analyser. Pour un outil d'anonymisation conventionnel, ces documents sont invisibles.
La idée reçue commune : "Ce ne sont que des fichiers image — le RGPD ne s'applique pas vraiment."
Le texte du RGPD est explicite. L'article 17(1) accorde aux personnes concernées le droit à l'effacement des données personnelles. Le considérant 26 confirme que l'anonymisation des données personnelles est la norme pour les données qui ne se rapportent plus à une personne physique identifiable. Aucune des dispositions n'inclut une exemption pour les formats d'image dérivés du papier.
Un cabinet d'avocats qui ne peut pas répondre à une demande de droit à l'effacement pour un client qui a été servi il y a 15 ans — parce que les dossiers clients de 15 ans n'existent qu'en tant que PDF d'images numérisées — a un écart de conformité au RGPD, pas une exemption.
Comment fonctionne la détection de PII basée sur des images
Le pipeline technique pour la détection de PII dans les documents basés sur des images intègre deux étapes :
Étape 1 : Reconnaissance Optique de Caractères (OCR)
- Entrée : fichier PDF ou image numérisé
- Le moteur OCR extrait le texte de l'image numérisée
- Sortie : texte lisible par machine avec des coordonnées de position
- Défi : l'écriture manuscrite, la mauvaise qualité de numérisation, l'encre effacée et les polices anciennes réduisent la précision de l'OCR
Étape 2 : Détection de PII par NLP
- Entrée : texte extrait par OCR
- La Reconnaissance d'Entités Nommées (NER) identifie les noms de personnes, les organisations, les lieux
- La correspondance de motifs identifie les numéros de sécurité sociale, les numéros de téléphone, les adresses e-mail, les numéros de compte
- Sortie : entités PII détectées avec des scores de confiance et des références de position
Étape 3 : Anonymisation
- Les entités détectées sont anonymisées dans la sortie de texte extrait
- Pour les PDF d'images : la sortie est un document texte anonymisé (l'image originale n'est pas modifiée — la modification de l'image nécessiterait des outils de rédaction de PDF)
- Le texte anonymisé permet des réponses aux DSAR, l'exécution des demandes d'effacement et la documentation de conformité
La qualité de l'OCR est la principale contrainte technique. Pour des documents imprimés de bonne qualité, les moteurs OCR modernes atteignent une précision de 98-99 % des caractères. Pour l'écriture manuscrite ou les numérisations dégradées, la précision peut être de 85-92 %. Pour les besoins de détection de PII, la précision au niveau des entités (identifier correctement qu'un nom apparaît dans le document, même si des caractères individuels ont des erreurs mineures) est généralement supérieure à la précision au niveau des caractères.
Traitement pratique pour de grandes archives
Pour les organisations avec de grandes archives héritées, le flux de travail opérationnel :
Phase d'inventaire :
- Cataloguer toutes les archives PDF basées sur des images par système source et plage de dates
- Estimer le volume et prioriser par risque de droit à l'effacement (d'abord les dossiers clients)
Traitement par lots :
- Traiter les archives par lots (5 000 à 10 000 fichiers par lot est typique)
- L'OCR + la détection de PII s'exécutent de manière asynchrone
- Sortie : rapports de détection de PII par fichier et extraits de texte anonymisés
Exécution du droit à l'effacement :
- La personne concernée soumet une demande d'effacement avec son nom et la période pertinente
- Rechercher des extraits de texte anonymisés pour des jetons pseudonymisés liés à la personne concernée
- Identifier des documents spécifiques contenant les dossiers de la personne concernée
- Traiter ces documents spécifiques pour la rédaction (modifiant le PDF d'image original)
- Documenter l'action d'effacement
Conformité continue :
- Nouveaux documents numérisés traités à travers le même pipeline avant archivage
- Rapports de détection de PII conservés comme preuves des activités de traitement conformément à l'article 30 du RGPD
Cas d'utilisation : Archive de 20 ans d'un cabinet d'avocats
Un cabinet d'avocats réalisant un audit RGPD a découvert 80 000 contrats clients PDF basés sur des images numérisés entre 1998 et 2010. Les outils PII standard n'ont retourné aucune détection — le format basé sur des images était invisible.
Le problème de conformité était concret : 15 anciens clients avaient soumis des demandes de droit à l'effacement au cours des 12 mois précédents. La réponse du cabinet : "Nous ne pouvons pas confirmer que vos données ont été effacées car nos dossiers historiques sont au format image que nous ne pouvons pas traiter." Ce n'est pas une réponse conforme selon l'article 17 du RGPD.
Approche de traitement :
- OCR + détection de PII sur les 80 000 documents par lots de 5 000
- Temps de traitement : environ 3 semaines de traitement par lots
- Résultat : 80 000 extraits de texte anonymisés avec des rapports de détection de PII par fichier
- Index de recherche des entités détectées liées aux identifiants de documents
Exécution des demandes d'effacement après traitement :
- Temps moyen pour identifier des documents pour une personne concernée spécifique : 4 minutes (recherche sur des extraits de texte anonymisés)
- Nombre de documents par demande d'effacement : en moyenne 6-8 documents
- Rédaction des documents identifiés : 20-30 minutes par demande
Obligation de conformité auparavant impossible : remplie. Les 15 demandes d'effacement en attente ont été résolues dans les 30 jours suivant l'achèvement du traitement de l'archive.
Limitations de l'OCR et gestion de la qualité
Une évaluation honnête de la détection de PII basée sur l'OCR pour les documents hérités nécessite de reconnaître les limitations :
Précision de l'écriture manuscrite : Les documents manuscrits (déclarations personnelles, formulaires de demande remplis à la main) ont une précision OCR inférieure à celle des documents imprimés. La détection de PII sur du contenu manuscrit nécessite un ajustement du seuil de confiance.
Qualité de numérisation dégradée : Les documents numérisés à basse résolution ou avec une mauvaise exposition ont une précision OCR réduite. Le prétraitement (amélioration du contraste, redressement) peut améliorer les résultats.
Polices et formats inhabituels : Les polices pré-numériques, les formats de documents juridiques avec des mises en page inhabituelles et les documents à colonnes multiples peuvent avoir une précision OCR inférieure.
Définition du seuil de qualité : Pour la documentation de conformité, il est approprié de classer les documents par confiance OCR : haute confiance (>95 % de précision de page) adaptée au traitement automatisé ; confiance moyenne (80-95 %) adaptée au traitement automatisé avec révision humaine des entités signalées ; faible confiance (<80 %) nécessitant une révision manuelle.
Pour les organisations avec de grandes archives de documents historiques dégradés, une approche hybride — traitement automatisé pour les documents à haute confiance, file d'attente de révision manuelle pour les documents à faible confiance — fournit un débit pratique tout en maintenant la qualité de conformité.
Sources :