By · Last updated 2026-06-05

Voltar ao BlogGDPR & Conformidade

GDPR e Arquivos de Documentos Legados: Como Processar 80.

O direito de apagamento do GDPR se aplica a dados pessoais 'independentemente do formato'.

June 5, 20267 min de leitura
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

RGPD e Ficheiros Digitalizados Antigos: OCR para Deteção de PII

Atualizado para 2026

As auditorias ao RGPD frequentemente revelam o mesmo risco oculto: arquivos PDF em formato de imagem anteriores à digitalização.

Escritórios de advocacia conservam 20 anos de ficheiros de clientes digitalizados. Hospitais guardam décadas de formulários de pacientes. Organismos públicos armazenam registos digitalizados. Bancos têm processos de empréstimo em formato de imagem.

Estes arquivos partilham uma característica. Os ficheiros são imagens raster — PDFs digitalizados, TIFF ou JPEG. Não existe camada de texto. As ferramentas PII padrão não conseguem lê-los. Para a maioria das ferramentas de anonimização, estes ficheiros simplesmente não existem.

Uma crença comum: "São ficheiros de imagem — o RGPD não se aplica."

O artigo 17.º(1) do RGPD confere às pessoas o direito ao apagamento. O considerando 26 esclarece que a anonimização retira as informações do âmbito de aplicação. Nenhuma disposição prevê uma exceção para formatos de imagem. Um escritório que não consegue cumprir um pedido de apagamento relativo a um processo de há 15 anos tem uma lacuna de conformidade, não uma isenção.

Consulte a nossa visão geral de conformidade e práticas de segurança para saber como apoiamos o RGPD.

Como Funciona o Pipeline de Deteção

O processo decorre em três etapas.

Etapa 1 — OCR

O motor OCR lê a imagem e extrai o texto. Regista a posição de cada palavra. O resultado é texto legível por máquina com coordenadas. A precisão diminui com escrita manual, tinta desbotada ou tipografias antigas.

Etapa 2 — Deteção de Entidades NLP

O Reconhecimento de Entidades Nomeadas (NER) analisa o texto OCR. Encontra nomes de pessoas, organizações e locais. A correspondência de padrões adiciona números de segurança social, telefones e números de conta. Cada correspondência recebe uma pontuação de confiança.

Etapa 3 — Anonimização

As entidades detetadas são substituídas no texto de saída. A imagem original não é alterada. Alterar a imagem requer ferramentas de redação separadas. O texto anonimizado suporta pedidos de apagamento, respostas a DSAR e registos de conformidade.

Os motores OCR modernos atingem 98–99 % de precisão ao nível dos caracteres em páginas impressas com boa qualidade. Escrita manual ou digitalizações degradadas descem para 85–92 %. A precisão ao nível da entidade tende a ser superior à do caractere. Um nome pode ser identificado mesmo quando algumas letras estão erradas.

A conclusão prática: a precisão OCR afeta quantas entidades são detetadas. Não determina se o método funciona. Mesmo a 90 % de precisão encontram-se a maioria dos nomes e números. Os níveis de qualidade continuam a ser necessários. O método em si é sólido.

Processamento de um Arquivo Grande

Os arquivos legados de grande dimensão seguem um fluxo de trabalho de quatro fases.

Fase 1 — Inventário: Listar todos os arquivos em formato de imagem por sistema de origem e intervalo de datas. Priorizar os registos com maior risco de apagamento. Os ficheiros de clientes têm prioridade sobre os internos.

Fase 2 — Processamento em lote: Executar OCR e deteção PII em lotes. Cinco a dez mil ficheiros por lote é um volume habitual. O processamento decorre durante a noite. O resultado é um relatório PII e um extrato de texto anonimizado por ficheiro.

Fase 3 — Cumprimento de pedidos de apagamento: O titular envia um pedido com o seu nome e o período. Pesquisar nos extratos anonimizados os seus tokens. Localizar os ficheiros. Redigir. Registar a ação.

Fase 4 — Conformidade contínua: Sujeitar os novos ficheiros digitalizados ao mesmo pipeline antes de os arquivar. Conservar os relatórios PII como evidência para o Registo das Atividades de Tratamento do Artigo 30.º.

Estudo de Caso: Arquivo de um Escritório de Advocacia

Uma auditoria encontrou 80.000 contratos de clientes em PDF em formato de imagem digitalizados entre 1998 e 2010. As ferramentas PII padrão mostraram zero deteções. O formato de imagem era invisível.

Quinze ex-clientes tinham submetido pedidos de apagamento nos 12 meses anteriores. O escritório respondeu: "Não podemos confirmar que os seus registos foram apagados." Essa resposta não cumpre o Artigo 17.º do RGPD.

O que o escritório fez:

  • OCR e deteção PII em todos os 80.000 ficheiros em lotes de 5.000
  • Duração do processamento: cerca de três semanas
  • Resultado: 80.000 extratos de texto anonimizados com relatórios por ficheiro
  • Índice de pesquisa que liga entidades a IDs de ficheiro

Após o processamento:

  • Tempo médio para localizar ficheiros de um titular: 4 minutos
  • Ficheiros por pedido: 6–8 em média
  • Tempo de redação por pedido: 20–30 minutos

Os 15 pedidos pendentes foram todos resolvidos em 30 dias.

O ponto-chave: a obrigação de conformidade existia antes do processamento. O escritório simplesmente não tinha as ferramentas. O processamento baseado em OCR não criou um novo dever. Tornou possível cumprir um dever já existente.

Limitações do OCR e Níveis de Qualidade

A escrita manual tem menor precisão OCR. Definir um limiar de confiança mais baixo antes de processar conteúdo manuscrito.

A má qualidade de digitalização reduz as pontuações. O melhoramento do contraste e a correção da inclinação ajudam antes de executar o OCR.

Os layouts incomuns — páginas multicoluna, tipografias jurídicas antigas — podem também obter pontuações mais baixas.

Definir níveis de qualidade para trabalhos de conformidade:

  • Acima de 95 % de precisão de página: processamento automatizado
  • 80–95 %: processamento automatizado e revisão humana das entidades sinalizadas
  • Abaixo de 80 %: revisão manual obrigatória

Uma abordagem por níveis fornece aos reguladores uma resposta clara sobre como a fiabilidade foi avaliada. As ferramentas automatizadas tratam os ficheiros de alta confiança. Uma fila manual trata o resto. O rendimento mantém-se elevado. A qualidade de conformidade também.

As nossas perguntas frequentes respondem a dúvidas comuns sobre processamento OCR e requisitos de registo de auditoria.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.