O problema multi-formato na conformidade com PII
Atualizado para 2026
Pergunte a um responsável de conformidade quais formatos ele anonimiza para respostas DSAR. A lista é sempre a mesma: contratos Word, faturas PDF, dados de clientes em Excel, exportações CSV e registos JSON.
Depois pergunte quais ferramentas ele usa. A resposta é normalmente: três a cinco. Cada ferramenta tem cobertura de entidades diferente. Cada uma tem configurações diferentes. Cada uma produz um registo de auditoria diferente.
Isto é fragmentação de formatos. Cria lacunas reais de conformidade.
Por que a fragmentação acontece
Nenhuma ferramenta única geriu todos os formatos de produção com o mesmo nível de qualidade. Ferramentas especializadas surgiram para cada formato. Uma para PDFs. Uma para folhas de cálculo. Uma macro para CSV. Cada uma tem a sua lista de entidades. Nenhuma partilha um registo de auditoria.
O resultado é previsível. Uma resposta DSAR abrange múltiplos tipos de ficheiro. Várias ferramentas processam-na. Cada ferramenta usa normas diferentes. A entidade X é detetada no PDF mas não é detetada no ficheiro Excel. As auditorias das APD expõem esta inconsistência.
Desafios técnicos específicos de cada formato
Cada formato cria os seus próprios problemas de deteção.
Os PDFs existem em dois tipos: texto nativo e digitalizações baseadas em imagens. Os PDFs digitalizados precisam de OCR primeiro. O OCR introduz erros. Os PDFs nativos armazenam frequentemente cada palavra como um objeto de texto separado. Isto interrompe a deteção de entidades entre limites de palavras. Os layouts multi-coluna precisam de reconstrução da ordem de leitura antes da análise.
Word (DOCX)
Os ficheiros DOCX contêm texto em XML. Mas também em cabeçalhos, rodapés, comentários, alterações controladas e caixas de texto. Um endereço no cabeçalho de página é PII. A maioria das ferramentas não o deteta. As alterações controladas podem conter PII eliminada. Esse texto é invisível na vista renderizada mas está presente no ficheiro.
Excel (XLSX)
O Excel armazena PII em qualquer célula de centenas de colunas e milhares de linhas. Os cabeçalhos de coluna como "NIF" ou "Email" fornecem contexto que os modelos NER não obtêm do texto bruto. Datas e NIFs são frequentemente armazenados como números. Campos de texto livre como "notas do gestor" contêm PII não estruturada. Ferramentas baseadas em colunas ignoram esses campos.
CSV
O CSV não tem a estrutura do Excel. Campos de texto livre em colunas de "notas" misturam PII com outro conteúdo. Problemas de codificação — UTF-8 versus Latin-1 — causam falhas para caracteres não-ASCII em nomes e endereços europeus.
JSON
O JSON aninhado enterra PII em profundidade: user.address.street.line1. Os arrays precisam de iteração. O mesmo nome de campo pode conter diferentes tipos de dados em diferentes objetos. Uma boa deteção precisa de consciência do esquema e análise de conteúdo juntos.
A inconsistência é um risco legal
Aqui está um cenário DSAR concreto ao abrigo do RGPD.
Um titular de dados solicita todos os dados pessoais armazenados sobre ele. A equipa de conformidade encontra estes ficheiros:
- 3 documentos Word (contratos, correspondência).
- 2 documentos PDF (faturas, transcrições de suporte).
- 1 folha de cálculo Excel (dados de conta de cliente).
- 1 exportação CSV (registos de acesso ao sistema).
Usam a Ferramenta A para PDFs. A Ferramenta B para Word. Uma macro para XLSX. Revisão manual para CSV. Cada ferramenta tem cobertura de entidades diferente.
O titular dos dados recebe o pacote anonimizado. A coluna Excel "notas do gestor" não foi processada. O endereço no cabeçalho do Word foi ignorado. Ambos contêm PII que o titular dos dados pediu para anonimizar.
Ao abrigo do Artigo 15.º do RGPD (direito de acesso) ou do Artigo 17.º (direito ao esquecimento), esta é uma resposta DSAR incompleta. Se o titular dos dados ou um regulador descobrir a lacuna, o uso inconsistente de ferramentas é um fator contributivo documentado.
O argumento para uma norma consistente
A conformidade DSAR sólida não se limita a listar quais tipos de PII anonimizar. Requer a mesma norma para cada formato no conjunto de respostas.
Isso significa:
- Os mesmos tipos de entidades verificados em Word, PDF, Excel, CSV e JSON.
- Os mesmos limiares de confiança aplicados a todos os ficheiros.
- Os mesmos tokens de substituição usados. Se "João Silva" aparece em três documentos, um token substitui o nome nos três.
- Um registo de auditoria cobrindo todos os formatos.
Uma solução de plataforma única torna isso possível através de predefinições. Uma predefinição "DSAR EU Individuals" verifica os mesmos 32 tipos de entidades. Executa num contrato PDF, num registo Excel e num registo CSV. O mesmo motor processa os três.
Para mais informações sobre como as predefinições funcionam em trabalhos por lote, consulte o nosso guia sobre processamento DSAR do RGPD em escala.
Processamento em lote de conjuntos de formatos mistos
A conformidade DSAR em escala significa processar pastas de formato misto como uma unidade.
Entrada: Uma pasta com 15 ficheiros — PDFs, DOCX, XLSX, CSV — representando todos os dados de um titular de dados.
Passos de processamento:
- Detetar o formato de cada ficheiro.
- Aplicar o analisador correto. Extração de texto PDF. Análise XML DOCX. Iteração de células XLSX. Análise de campos CSV.
- Executar o mesmo pipeline NLP no texto extraído de todos os ficheiros.
- Aplicar a mesma predefinição a cada ficheiro no lote.
- Usar um conjunto de tokens partilhado. O mesmo nome recebe o mesmo token de substituição nos 15 ficheiros.
Saída:
- Versões anonimizadas dos 15 ficheiros nos seus formatos originais.
- Um relatório de auditoria entre formatos. Mostra cada entidade detetada, o seu documento fonte, a sua pontuação de confiança e a ação tomada.
Esse relatório de auditoria é o documento de conformidade. Prova que os 15 ficheiros foram processados com a mesma norma. Para uma auditoria da APD, isso é muito mais sólido do que ferramentas fragmentadas.
Relacionado: prevenção de PII em tempo real para fugas de dados de IA.
Limitações conhecidas dos pipelines unificados
A unificação de formatos resolve a fragmentação. Mas introduz as suas próprias restrições.
Fidelidade de conversão: Converter DOCX para um formato de processamento e voltar pode perder o histórico de alterações controladas ou corromper objetos incorporados. Documentos jurídicos precisam de validação extra após o processamento.
Manutenção por formato: Os reconhecedores de entidades para CSV estruturado diferem dos usados para formulários digitalizados. Um pipeline "unificado" ainda precisa de pré-processamento por formato. Esse pré-processamento precisa de atualizações à medida que os formatos evoluem.
Precisão em formatos incomuns: A maioria dos modelos NLP treina com texto web e documentos de escritório comuns. Formatos legados — ficheiros EDI antigos, esquemas XML personalizados, metadados CAD — frequentemente produzem pior precisão de deteção do que os benchmarks sugerem.
Formatos não reconstruíveis: Alguns tipos de PDF e ficheiros apenas de imagem não podem ser anonimizados no local. Precisam de redação visual. A redação visual destrói a estrutura legível por máquina. Se precisar de pesquisa ou indexação após a anonimização, isso pode não ser suficiente.
Fluxo de trabalho prático para DSAR
Para equipas de conformidade com volumes regulares de DSAR:
- Recolher todos os documentos do titular dos dados
- Criar um lote DSAR — arrastar todos os ficheiros independentemente do formato
- Selecionar a predefinição "DSAR EU Individuals"
- Executar o lote
- Descarregar as saídas anonimizadas e o relatório de auditoria consolidado
- Verificar por amostragem dois ou três documentos da saída
- Preparar os documentos anonimizados para a resposta ao titular dos dados
- Anexar o relatório de auditoria ao processo DSAR
O passo 1 (recolha manual) continua a ser o principal custo de tempo. Os passos 2 a 8 demoram menos de 10 minutos para um lote típico. O relatório de auditoria do passo 5 satisfaz o princípio de responsabilização do RGPD.
anonym.legal trata DOCX, PDF, XLSX, CSV e JSON. Cada ficheiro usa a mesma predefinição. Um relatório de auditoria cobre o lote.