RGPD e Ficheiros Digitalizados Antigos: OCR para Deteção de PII
Atualizado para 2026
As auditorias ao RGPD frequentemente revelam o mesmo risco oculto: arquivos PDF em formato de imagem anteriores à digitalização.
Escritórios de advocacia conservam 20 anos de ficheiros de clientes digitalizados. Hospitais guardam décadas de formulários de pacientes. Organismos públicos armazenam registos digitalizados. Bancos têm processos de empréstimo em formato de imagem.
Estes arquivos partilham uma característica. Os ficheiros são imagens raster — PDFs digitalizados, TIFF ou JPEG. Não existe camada de texto. As ferramentas PII padrão não conseguem lê-los. Para a maioria das ferramentas de anonimização, estes ficheiros simplesmente não existem.
Uma crença comum: "São ficheiros de imagem — o RGPD não se aplica."
O artigo 17.º(1) do RGPD confere às pessoas o direito ao apagamento. O considerando 26 esclarece que a anonimização retira as informações do âmbito de aplicação. Nenhuma disposição prevê uma exceção para formatos de imagem. Um escritório que não consegue cumprir um pedido de apagamento relativo a um processo de há 15 anos tem uma lacuna de conformidade, não uma isenção.
Consulte a nossa visão geral de conformidade e práticas de segurança para saber como apoiamos o RGPD.
Como Funciona o Pipeline de Deteção
O processo decorre em três etapas.
Etapa 1 — OCR
O motor OCR lê a imagem e extrai o texto. Regista a posição de cada palavra. O resultado é texto legível por máquina com coordenadas. A precisão diminui com escrita manual, tinta desbotada ou tipografias antigas.
Etapa 2 — Deteção de Entidades NLP
O Reconhecimento de Entidades Nomeadas (NER) analisa o texto OCR. Encontra nomes de pessoas, organizações e locais. A correspondência de padrões adiciona números de segurança social, telefones e números de conta. Cada correspondência recebe uma pontuação de confiança.
Etapa 3 — Anonimização
As entidades detetadas são substituídas no texto de saída. A imagem original não é alterada. Alterar a imagem requer ferramentas de redação separadas. O texto anonimizado suporta pedidos de apagamento, respostas a DSAR e registos de conformidade.
Os motores OCR modernos atingem 98–99 % de precisão ao nível dos caracteres em páginas impressas com boa qualidade. Escrita manual ou digitalizações degradadas descem para 85–92 %. A precisão ao nível da entidade tende a ser superior à do caractere. Um nome pode ser identificado mesmo quando algumas letras estão erradas.
A conclusão prática: a precisão OCR afeta quantas entidades são detetadas. Não determina se o método funciona. Mesmo a 90 % de precisão encontram-se a maioria dos nomes e números. Os níveis de qualidade continuam a ser necessários. O método em si é sólido.
Processamento de um Arquivo Grande
Os arquivos legados de grande dimensão seguem um fluxo de trabalho de quatro fases.
Fase 1 — Inventário: Listar todos os arquivos em formato de imagem por sistema de origem e intervalo de datas. Priorizar os registos com maior risco de apagamento. Os ficheiros de clientes têm prioridade sobre os internos.
Fase 2 — Processamento em lote: Executar OCR e deteção PII em lotes. Cinco a dez mil ficheiros por lote é um volume habitual. O processamento decorre durante a noite. O resultado é um relatório PII e um extrato de texto anonimizado por ficheiro.
Fase 3 — Cumprimento de pedidos de apagamento: O titular envia um pedido com o seu nome e o período. Pesquisar nos extratos anonimizados os seus tokens. Localizar os ficheiros. Redigir. Registar a ação.
Fase 4 — Conformidade contínua: Sujeitar os novos ficheiros digitalizados ao mesmo pipeline antes de os arquivar. Conservar os relatórios PII como evidência para o Registo das Atividades de Tratamento do Artigo 30.º.
Estudo de Caso: Arquivo de um Escritório de Advocacia
Uma auditoria encontrou 80.000 contratos de clientes em PDF em formato de imagem digitalizados entre 1998 e 2010. As ferramentas PII padrão mostraram zero deteções. O formato de imagem era invisível.
Quinze ex-clientes tinham submetido pedidos de apagamento nos 12 meses anteriores. O escritório respondeu: "Não podemos confirmar que os seus registos foram apagados." Essa resposta não cumpre o Artigo 17.º do RGPD.
O que o escritório fez:
- OCR e deteção PII em todos os 80.000 ficheiros em lotes de 5.000
- Duração do processamento: cerca de três semanas
- Resultado: 80.000 extratos de texto anonimizados com relatórios por ficheiro
- Índice de pesquisa que liga entidades a IDs de ficheiro
Após o processamento:
- Tempo médio para localizar ficheiros de um titular: 4 minutos
- Ficheiros por pedido: 6–8 em média
- Tempo de redação por pedido: 20–30 minutos
Os 15 pedidos pendentes foram todos resolvidos em 30 dias.
O ponto-chave: a obrigação de conformidade existia antes do processamento. O escritório simplesmente não tinha as ferramentas. O processamento baseado em OCR não criou um novo dever. Tornou possível cumprir um dever já existente.
Limitações do OCR e Níveis de Qualidade
A escrita manual tem menor precisão OCR. Definir um limiar de confiança mais baixo antes de processar conteúdo manuscrito.
A má qualidade de digitalização reduz as pontuações. O melhoramento do contraste e a correção da inclinação ajudam antes de executar o OCR.
Os layouts incomuns — páginas multicoluna, tipografias jurídicas antigas — podem também obter pontuações mais baixas.
Definir níveis de qualidade para trabalhos de conformidade:
- Acima de 95 % de precisão de página: processamento automatizado
- 80–95 %: processamento automatizado e revisão humana das entidades sinalizadas
- Abaixo de 80 %: revisão manual obrigatória
Uma abordagem por níveis fornece aos reguladores uma resposta clara sobre como a fiabilidade foi avaliada. As ferramentas automatizadas tratam os ficheiros de alta confiança. Uma fila manual trata o resto. O rendimento mantém-se elevado. A qualidade de conformidade também.
As nossas perguntas frequentes respondem a dúvidas comuns sobre processamento OCR e requisitos de registo de auditoria.