Privacidade Reproduzível: por que equipes de ML precisam de presets de configuração
O DPO aprovou o procedimento de anonimização. Ele cobre quatro itens: nomes, e-mails, números de telefone e datas de nascimento. O método é Substituir. O documento tem quatro páginas e fica no wiki de conformidade.
Doze cientistas de dados o leem no início do projeto. Cada um configura a ferramenta por conta própria. Alguns adicionam identificadores nacionais. Outros adicionam endereços IP. Outros mudam para Redigir. Três meses depois, os conjuntos não são consistentes.
A CNIL investigou várias empresas de IA em 2024. O problema: uso inadequado de dados pessoais em conjuntos de modelos. Os investigadores não perguntaram apenas se a anonimização aconteceu. Perguntaram com que consistência ela foi aplicada.
A documentação é necessária. Não é suficiente. A solução técnica é o preset.
Por que conjuntos de ML precisam de configuração própria
Construir conjuntos de modelos tem requisitos únicos. A anonimização geral de documentos não os compartilha.
Substituir, não Redigir. Modelos treinados em textos onde nomes se tornam [REDIGIDO] aprendem esse token como marcador de posição de nome. Isso prejudica o modelo. Substituir troca "João Silva" por "Carlos Souza". O modelo vê padrões reais de nomes. Não vê um token de máscara.
Mesmo processo para todos os registros. Um conjunto onde 70% dos nomes são substituídos e 30% são redigidos envia sinal misto. Cada registro deve passar pelas mesmas etapas.
Mesma lista de entidades. Se o conjunto contém dados de saúde, remover nomes mas deixar datas de nascimento em alguns registros cria lacunas. Os doze cientistas de dados devem remover os mesmos tipos de entidades.
Sem remoção excessiva. Remover datas que são carimbos de tempo — não datas de nascimento — reduz a qualidade do conjunto sem ganho de conformidade. O preset aprovado define exatamente o que remover.
Resultados reproduzíveis. Se um conjunto precisar ser reprocessado — após detectar um tipo de entidade omitido — o preset dá o mesmo resultado a cada vez. Configurações ad hoc não fazem isso.
O problema dos doze cientistas de dados
Uma equipe ML de uma fintech europeia usa conjuntos de logs de clientes. O DPO aprovou o propósito — detecção de fraude — com uma regra: todos os nomes, e-mails, telefones e identificadores de pagamento dos clientes devem ser substituídos antes de qualquer trabalho com o modelo.
Sem presets:
- Pessoa 1 remove nomes, e-mails e telefones — mas esquece os identificadores de pagamento
- Pessoa 2 inclui identificadores de pagamento mas usa Redigir, não Substituir
- Pessoa 3 segue o documento de procedimento exatamente
- Pessoas 4–12 variam
O conjunto combinado é parcialmente não conforme e parcialmente excessivamente processado. Um DPO não pode certificá-lo.
Com um preset aprovado pelo DPO:
- O DPO cria "ML Dev — Detecção de fraude" com tipos de entidades exatos e o método Substituir
- O preset vai para as doze pessoas com uma regra: usar este para todo o trabalho com conjuntos
- Ninguém pode alterar o preset sem aprovação do DPO
Cada pessoa produz o mesmo resultado. O conjunto combinado é consistente. A auditoria anual de IA passa sem achados. O ano anterior teve três achados por trabalho inconsistente com conjuntos.
LGPD/RGPD e a Lei de IA
Atualizado para 2026
A Lei de IA da UE entrou plenamente em vigor em agosto de 2024. Ela adiciona regras para sistemas de IA que usam dados pessoais para trabalho com modelos. Sistemas de IA de alto risco devem documentar seus conjuntos, incluindo as medidas de anonimização aplicadas.
O Artigo 5(1)(b) do RGPD — a regra de limitação de finalidade — bloqueia o uso de dados pessoais sem base legal clara. As ações da CNIL em 2024 focaram nessa lacuna: dados coletados para um serviço usados para trabalho com modelos sem base válida ou anonimização.
Os presets ajudam a satisfazer ambos os conjuntos de regras:
- Nome e configuração do preset: o método documentado
- Registros de processamento: prova de que o método foi aplicado
- Aprovação do DPO: decisão registrada sobre a configuração
Isso cria a trilha de auditoria que ambas as leis exigem. Para os detalhes do Artigo 10, veja o guia de dados de treinamento da Lei de IA da UE.
Configuração de preset para conjuntos NLP
Tipos incluídos na maioria dos conjuntos NLP:
- PERSON — Substituir por nomes similares
- EMAIL_ADDRESS — Substituir por endereços sintéticos
- PHONE_NUMBER — Substituir por números sintéticos
- CREDIT_CARD / IBAN — Substituir ou Redigir
- LOCATION — Substituir por lugares similares se a geografia importa; Redigir se não
- DATE_OF_BIRTH — Redigir; agrupamento por idade frequentemente necessário
Tipos habitualmente excluídos:
- Datas gerais — carimbos de tempo ajudam modelos temporais
- Nomes de organizações — ajudam modelos de reconhecimento de entidades
- URLs — ajudam modelos de links e referências
O responsável de ML e o DPO definem essas regras no preset aprovado. Os membros da equipe o aplicam. Eles não fazem escolhas de configuração.
Presets como memória institucional
Antes dos presets. A configuração correta de entidades vivia nas cabeças de três cientistas de dados. Dois saíram no T3. O conhecimento foi com eles.
Após os presets. A configuração vive em "ML Dev — Registros de clientes v2.1". O histórico de versões mostra quando foi criado, quem aprovou e o que mudou desde v2.0. Novos membros da equipe usam o preset e herdam todo o conhecimento incorporado.
A versão 2.1 adicionou detecção de IBAN após uma revisão identificar que faltava. A versão 2.0 foi aprovada em fevereiro de 2025. O registro está completo.
Para como os registros de processamento e fluxos de revisão do DPO funcionam, veja o guia de anonimização ML para RGPD.
Presets e o padrão de aplicação da CNIL
Os casos de IA da CNIL em 2024 estabelecem um padrão claro. Perguntam não apenas o que foi removido, mas como foi governado. Um preset compartilhado com registro de aprovação do DPO e registros de processamento responde isso diretamente.
Uma configuração ad hoc não faz isso. A mesma lacuna existe em outras autoridades de proteção de dados da UE que seguem a lógica da CNIL. Para mais sobre a abordagem de IA da CNIL, veja o guia de conformidade de IA RGPD da CNIL.
Conclusão
A documentação diz aos membros da equipe o que fazer. Os presets tornam fácil — e aplicável — fazer isso da mesma forma a cada vez.
Para conjuntos ML, a consistência é tanto um requisito legal quanto técnico. O preset satisfaz ambos ao mesmo tempo.
Autoridades de proteção de dados que examinam práticas de IA buscam evidências de anonimização uniforme. Um preset aplicado da mesma forma em todo o trabalho com conjuntos é a prova mais clara que você pode fornecer.