O Problema de PII Estrutural vs. Texto Livre
Os dados de pesquisa compartilhados entre instituições acadêmicas geralmente viajam no formato CSV. Quando os pesquisadores preparam CSVs para compartilhamento, a lista de verificação padrão de anonimização é baseada em colunas: identificar colunas que contêm dados pessoais, excluir ou pseudonimizar essas colunas.
Essa abordagem lida com PII estruturada de forma confiável. Coluna chamada "email" contém endereços de email — exclua-a. Coluna chamada "telefone" contém números de telefone — exclua-a. Coluna chamada "nome_participante" contém nomes — pseudonimize-a.
O que a abordagem de exclusão de colunas perde: PII embutida em colunas de resposta de texto livre.
Um conjunto de dados de pesquisa com 5.000 linhas e 20 colunas pode ter:
- 5 colunas de PII estruturada (nome, email, telefone, ID, ano de nascimento)
- 15 colunas de resposta de texto livre ("comentários_adicionais", "descrever_experiência", "o_que_melhoraria", "outros_detalhes")
As colunas estruturadas são limpas pela exclusão de colunas. As colunas de texto livre permanecem como estão. Mas os respondentes da pesquisa escrevem coisas como:
- "Meu médico no Boston Medical Center, Dr. Maria Santos, disse que o tratamento era experimental"
- "Estou lidando com isso desde meu acidente em 2019 quando o carro de John Henderson bateu no meu"
- "Você pode entrar em contato com meu cuidador em margaret.wells@gmail.com se precisar de mais informações"
Essas entradas contêm indivíduos nomeados, afiliações institucionais, informações de saúde e detalhes de contato — nenhum dos quais aparece nos cabeçalhos das colunas, e nenhum dos quais é capturado pela anonimização por exclusão de colunas.
Por que Isso Falha no Padrão de Anonimização do GDPR
O Considerando 26 do GDPR define dados anônimos como informações que "não se relacionam a uma pessoa natural identificada ou identificável." O padrão para anonimização é um nível elevado: os dados são anônimos apenas se for "impossível" (em estimativa razoável) identificar o sujeito dos dados.
Um CSV de pesquisa parcialmente anonimizado — colunas estruturadas limpas, colunas de texto livre contendo indivíduos nomeados — não atende a esse padrão. Os indivíduos nomeados nas respostas de texto livre são identificáveis, e o conjunto de dados, portanto, permanece dados pessoais sujeitos aos requisitos de salvaguarda do Artigo 89 do GDPR.
Isso é importante para vários contextos de pesquisa:
Isenção de pesquisa do Artigo 89: O Artigo 89 do GDPR permite o processamento de dados pessoais para fins de pesquisa científica com obrigações reduzidas, mas apenas onde "salvaguardas apropriadas" estão em vigor. Compartilhar um conjunto de dados que é parcialmente anonimizado (mas ainda contém PII em texto livre) enquanto afirma que atende às salvaguardas do Artigo 89 é uma falha de conformidade.
Aprovação do comitê de ética de pesquisa: A maioria dos IRBs acadêmicos e comitês de revisão ética exige que os conjuntos de dados compartilhados sejam genuinamente anonimizados. A anonimização parcial que deixa PII de texto livre intacta geralmente não satisfaz as condições de aprovação ética.
Acordos de compartilhamento de dados entre instituições: Os DSAs para dados de pesquisa geralmente especificam que os dados compartilhados devem ser anonimizados a um padrão definido. A anonimização parcial que falha no Considerando 26 do GDPR pode violar o DSA.
O Desafio Técnico da Detecção de PII em Texto Livre
As respostas de pesquisa em texto livre estão entre os alvos de detecção de PII mais desafiadores porque:
Nomeação contextual: "Dr. Maria Santos no Boston Medical Center" requer NER para detectar "Maria Santos" como uma pessoa e "Boston Medical Center" como uma organização — não uma correspondência de palavra-chave. Os padrões não são previsíveis.
Identificação incidental: "O carro de John Henderson bateu no meu" requer NER para identificar "John Henderson" como um indivíduo nomeado em um contexto narrativo — não um campo de dados, mas uma pessoa referenciada em uma história.
Informações de contato em formatos inesperados: Endereços de email e números de telefone que aparecem em texto livre podem ter formatação não padrão ("me alcance em margaret ponto wells arroba gmail") que a detecção apenas por regex perde.
Tipos de entidades específicas de pesquisa: Dados de pesquisa acadêmica e clínica frequentemente contêm identificadores institucionais (IDs de hospital, códigos de local de pesquisa), terminologia clínica e referências de localização que são PII em contexto, mesmo que não sejam óbvias.
É por isso que a detecção baseada em NLP — em vez de correspondência de padrões apenas — é necessária para uma genuína anonimização de pesquisa em texto livre.
Caso de Uso: Consórcio de Pesquisa Multi-Institucional
Um consórcio de pesquisa em três universidades europeias conduziu uma pesquisa sobre a experiência do paciente: 5.000 respondentes, 3 colunas de PII estruturada e 8 colunas de resposta de texto livre. Os dados deveriam ser compartilhados entre instituições para análise colaborativa sob um Acordo de Compartilhamento de Dados e isenção do Artigo 89 do GDPR.
Abordagem padrão (exclusão de colunas apenas):
- 3 colunas de PII estruturada removidas
- 8 colunas de texto livre mantidas como estão
- Declaração de conformidade: "Colunas de PII excluídas"
- PII real restante: 47 indivíduos nomeados mencionados nas respostas de texto livre, 23 endereços de email voluntariados em comentários, 18 referências de localização que poderiam identificar respondentes em contexto
Com detecção de NLP em texto livre:
- 3 colunas de PII estruturada pseudonimizadas (tokens consistentes, não excluídos — preservando a integridade da contagem de linhas)
- 8 colunas de texto livre processadas: 47 nomes de pessoas detectados e substituídos, 23 endereços de email detectados e mascarados, 18 referências de localização detectadas e generalizadas ("Boston Medical Center" → "[Instituição de Saúde]")
- Saída: conjunto de dados genuinamente anonimizado atendendo ao padrão do Considerando 26 do GDPR
- Comitê de ética de pesquisa aceitou a metodologia de anonimização
- Conformidade do DSA confirmada pela revisão do DPO
A diferença: a segunda abordagem produz um conjunto de dados que realmente atende ao padrão de anonimização. A primeira abordagem produz um conjunto de dados que parece anonimizado, mas contém informações identificáveis nas colunas que não foram revisadas.
Construindo um Protocolo de Anonimização de Dados de Pesquisa
Para equipes de pesquisa que trabalham com dados de pesquisa e entrevistas, um protocolo estruturado pré-compartilhamento:
Passo 1: Classificação de colunas
- Categorizar todas as colunas: PII estruturada, não-PII estruturada, resposta de texto livre
- Documentar a classificação
Passo 2: Manipulação de PII estruturada
- Excluir (se não necessário para a pesquisa) ou pseudonimizar (se necessário para vinculação de registros)
- Documentar os tokens de substituição usados
Passo 3: Análise de conteúdo de texto livre
- Executar detecção de NLP em todas as colunas de texto livre
- Revisar entidades detectadas: confirmar quais representam PII genuína
- Aplicar substituições para entidades de PII confirmadas
Passo 4: Verificação
- Amostrar 50-100 linhas do conjunto de dados de saída
- Revisão manual de quaisquer entradas de texto livre contendo entidades detectadas
- Confirmar que a taxa de detecção é apropriada para o tipo de coluna
Passo 5: Documentação
- Documento de metodologia de anonimização: ferramentas utilizadas, tipos de entidades detectadas, colunas processadas
- Compartilhar documento de metodologia juntamente com o conjunto de dados anonimizado para revisão ética
Esse protocolo transforma "excluímos a coluna de nome" em um processo de anonimização defensável e documentado que atende ao Artigo 89 do GDPR e aos requisitos éticos de pesquisa institucional.
Fontes: