Privacidade Reproduzível: Por Que Equipes de ML Precisam de Presets de Configuração, Não Apenas Documentação
O DPO aprovou o documento do procedimento de anonimização. Ele especifica: remover nomes, e-mails, números de telefone e datas de nascimento dos conjuntos de dados de treinamento usando o método Substituir. O documento tem 4 páginas e está no wiki de conformidade.
Doze cientistas de dados consultam-no no início do projeto. Eles configuram suas próprias versões da ferramenta de anonimização. Alguns adicionam IDs nacionais. Alguns incluem endereços IP. Alguns usam Redigir em vez de Substituir. Três meses depois, os conjuntos de dados de treinamento estão inconsistentes.
A CNIL (DPA da França) investigou várias empresas de IA em 2024 por usar inadequadamente dados pessoais em conjuntos de dados de treinamento. As investigações examinaram não apenas se a anonimização ocorreu, mas quão consistentemente foi aplicada.
A documentação é necessária. Não é suficiente. A solução técnica é o preset.
Por Que Dados de Treinamento de ML Requerem Configuração Específica
A anonimização de dados de treinamento de ML tem requisitos que a anonimização de documentos gerais não possui:
Substituir, não Redigir: Modelos de linguagem neural treinados em texto onde nomes são substituídos por tokens [REDACTED] aprendem que [REDACTED] é um identificador especial que aparece em posições de nome. Isso cria um comportamento indesejado do modelo. O método Substituir (substituindo "John Smith" por "David Chen") preserva a distribuição estatística de nomes no texto enquanto remove as informações identificadoras. O modelo aprende com distribuições realistas de posições de nomes, não de um token de máscara.
Consistência em todo o conjunto de dados: Um conjunto de dados de treinamento onde 70% dos nomes são substituídos e 30% são [REDACTED] produz um sinal de treinamento inconsistente. Todos os registros devem ser processados de forma idêntica.
Seleção consistente de entidades: Se o conjunto de dados de treinamento contém dados de saúde, remover nomes mas não datas de nascimento em alguns registros cria inconsistência. Todos os 12 cientistas de dados devem remover o mesmo conjunto de tipos de entidades.
Sem super-anonimização: O método Substituir aplicado em excesso — removendo datas que são meramente timestamps, não datas de nascimento — degrada a utilidade do conjunto de dados sem melhorar a conformidade. O preset aprovado define exatamente quais entidades de data remover (data de nascimento, não timestamps gerais).
Reproduzibilidade entre execuções: Se o mesmo conjunto de dados precisa ser reprocessado (por exemplo, após detectar um tipo de entidade perdido), reprocessar com o mesmo preset produz uma saída consistente. Configurações ad-hoc não são reproduzíveis.
O Problema dos 12 Cientistas de Dados
A equipe de ML de uma fintech europeia usa um conjunto de dados de treinamento derivado de registros de interação com clientes. O DPO aprovou a finalidade do processamento (treinamento de modelo para detecção de fraudes) com condições: todos os nomes de clientes, e-mails, números de telefone e identificadores de pagamento devem ser substituídos usando o método Substituir antes de qualquer treinamento de modelo.
Sem presets:
- Cientista de dados 1 remove nomes, e-mails, números de telefone (não inclui identificadores de pagamento)
- Cientista de dados 2 inclui identificadores de pagamento, mas usa Redigir em vez de Substituir
- Cientista de dados 3 segue o documento do procedimento exatamente
- Cientistas de dados 4-12 variam
Resultado: 12 versões processadas de forma diferente dos dados de treinamento. O conjunto de dados mesclado é parcialmente não conforme, parcialmente super-anonimizado e estatisticamente inconsistente.
Com preset aprovado pelo DPO:
- DPO cria o preset "Treinamento de ML — Detecção de Fraude" com tipos de entidades exatos e método Substituir
- Preset compartilhado com todos os 12 cientistas de dados com instruções: "Use este preset para toda a preparação de dados de treinamento"
- Preset não pode ser modificado sem revisão do DPO (controle de acesso à configuração)
Resultado: Todos os 12 cientistas de dados produzem uma saída de anonimização idêntica. O conjunto de dados mesclado é consistente. A auditoria anual de conformidade de IA passa sem constatações.
Ano anterior: 3 constatações relacionadas à anonimização inconsistente de dados de treinamento de ML. Pós-preset: 0 constatações.
Interseção da Lei de IA da GDPR
A Lei de IA da UE (em vigor desde agosto de 2024) adiciona requisitos de conformidade para sistemas de IA que usam dados pessoais para treinamento. Sistemas de IA de alto risco devem documentar seus dados de treinamento, incluindo medidas de anonimização aplicadas.
O princípio de limitação de finalidade da GDPR (Artigo 5(1)(b)) limita o uso de dados pessoais para treinamento de ML sem uma base legal específica. As ações de execução da CNIL em 2024 contra empresas de IA focaram nessa interseção: dados pessoais coletados para a prestação de serviços sendo usados para treinamento sem base legal adequada ou anonimização.
Os requisitos de documentação tanto da GDPR quanto da Lei de IA são mais fáceis de satisfazer quando o processo de anonimização de dados de treinamento é tecnicamente aplicado por meio de presets:
- Nome e configuração do preset: a metodologia de anonimização documentada
- Registros de processamento: evidência de que a metodologia foi aplicada a conjuntos de dados específicos
- Aprovação do DPO: decisão registrada autorizando a configuração do preset
Isso cria a trilha de auditoria que ambas as regulamentações exigem.
Configuração de Preset para Dados de Treinamento de ML
Tipos de entidades para a maioria dos dados de treinamento de NLP:
- PERSON (nomes — Substituir por nomes semelhantes)
- EMAIL_ADDRESS (Substituir por e-mails sintéticos)
- PHONE_NUMBER (Substituir por números de telefone sintéticos)
- CREDIT_CARD / IBAN (Substituir ou Redigir — dados de pagamento)
- LOCATION (Substituir por locais semelhantes se geolocalização for necessária para o modelo; Redigir se não)
- DATE_OF_BIRTH (Redigir — generalização de idade frequentemente necessária)
Tipos de entidades normalmente NÃO incluídos para dados de treinamento de NLP:
- Datas gerais (não data de nascimento) — timestamps e datas em texto são frequentemente necessárias para modelagem temporal
- Nomes de organizações — frequentemente necessários para treinamento de reconhecimento de entidades
- URLs — frequentemente necessários para extração de links e referências
O líder de ML e o DPO definem essas distinções no preset aprovado. Cientistas de dados individuais não tomam essas decisões — eles aplicam o preset.
Conhecimento Institucional e Versionamento de Preset
Presets servem a uma função de memória institucional:
Antes dos presets: A configuração correta de entidades para dados de treinamento de ML estava na mente dos três cientistas de dados que haviam passado pelo processo de revisão de conformidade. Quando dois deles saíram no terceiro trimestre, o conhecimento institucional foi perdido.
Após os presets: A configuração é codificada em "Treinamento de ML — Dados do Cliente v2.1". O histórico de versões mostra quando foi criado, quem o aprovou e o que mudou entre v2.0 e v2.1. Novos cientistas de dados usam o preset e herdam o conhecimento institucional embutido nele.
A versão 2.1 adicionou a detecção de IBAN após uma revisão de conformidade ter constatado que estava faltando. Os registros da versão 2.0 mostram que foi aprovada em fevereiro de 2025. A trilha de auditoria está completa.
Conclusão
A documentação diz aos membros da equipe o que fazer. Os presets tornam tecnicamente fácil — e tecnicamente aplicável — fazê-lo de forma consistente.
Para dados de treinamento de ML especificamente, a consistência é tanto um requisito de conformidade (GDPR, Lei de IA) quanto um requisito técnico (o treinamento de modelo requer pré-processamento consistente). O preset satisfaz ambos simultaneamente.
A CNIL e outras DPAs que investigam práticas de dados de treinamento de IA procurarão evidências de anonimização sistemática e consistente. Um preset aplicado uniformemente em toda a preparação de dados de treinamento é a evidência mais forte disponível.
Fontes: