Privacidade Reproduzível: por que equipes de ML precisam de presets de configuração

O DPO aprovou o procedimento de anonimização. Ele cobre quatro itens: nomes, e-mails, números de telefone e datas de nascimento. O método é Substituir. O documento tem quatro páginas e fica no wiki de conformidade.

Doze cientistas de dados o leem no início do projeto. Cada um configura a ferramenta por conta própria. Alguns adicionam identificadores nacionais. Outros adicionam endereços IP. Outros mudam para Redigir. Três meses depois, os conjuntos não são consistentes.

A CNIL investigou várias empresas de IA em 2024. O problema: uso inadequado de dados pessoais em conjuntos de modelos. Os investigadores não perguntaram apenas se a anonimização aconteceu. Perguntaram com que consistência ela foi aplicada.

A documentação é necessária. Não é suficiente. A solução técnica é o preset.

Por que conjuntos de ML precisam de configuração própria

Construir conjuntos de modelos tem requisitos únicos. A anonimização geral de documentos não os compartilha.

Substituir, não Redigir. Modelos treinados em textos onde nomes se tornam [REDIGIDO] aprendem esse token como marcador de posição de nome. Isso prejudica o modelo. Substituir troca "João Silva" por "Carlos Souza". O modelo vê padrões reais de nomes. Não vê um token de máscara.

Mesmo processo para todos os registros. Um conjunto onde 70% dos nomes são substituídos e 30% são redigidos envia sinal misto. Cada registro deve passar pelas mesmas etapas.

Mesma lista de entidades. Se o conjunto contém dados de saúde, remover nomes mas deixar datas de nascimento em alguns registros cria lacunas. Os doze cientistas de dados devem remover os mesmos tipos de entidades.

Sem remoção excessiva. Remover datas que são carimbos de tempo — não datas de nascimento — reduz a qualidade do conjunto sem ganho de conformidade. O preset aprovado define exatamente o que remover.

Resultados reproduzíveis. Se um conjunto precisar ser reprocessado — após detectar um tipo de entidade omitido — o preset dá o mesmo resultado a cada vez. Configurações ad hoc não fazem isso.

O problema dos doze cientistas de dados

Uma equipe ML de uma fintech europeia usa conjuntos de logs de clientes. O DPO aprovou o propósito — detecção de fraude — com uma regra: todos os nomes, e-mails, telefones e identificadores de pagamento dos clientes devem ser substituídos antes de qualquer trabalho com o modelo.

Sem presets:

Pessoa 1 remove nomes, e-mails e telefones — mas esquece os identificadores de pagamento
Pessoa 2 inclui identificadores de pagamento mas usa Redigir, não Substituir
Pessoa 3 segue o documento de procedimento exatamente
Pessoas 4–12 variam

O conjunto combinado é parcialmente não conforme e parcialmente excessivamente processado. Um DPO não pode certificá-lo.

Com um preset aprovado pelo DPO:

O DPO cria "ML Dev — Detecção de fraude" com tipos de entidades exatos e o método Substituir
O preset vai para as doze pessoas com uma regra: usar este para todo o trabalho com conjuntos
Ninguém pode alterar o preset sem aprovação do DPO

Cada pessoa produz o mesmo resultado. O conjunto combinado é consistente. A auditoria anual de IA passa sem achados. O ano anterior teve três achados por trabalho inconsistente com conjuntos.

LGPD/RGPD e a Lei de IA

Atualizado para 2026

A Lei de IA da UE entrou plenamente em vigor em agosto de 2024. Ela adiciona regras para sistemas de IA que usam dados pessoais para trabalho com modelos. Sistemas de IA de alto risco devem documentar seus conjuntos, incluindo as medidas de anonimização aplicadas.

O Artigo 5(1)(b) do RGPD — a regra de limitação de finalidade — bloqueia o uso de dados pessoais sem base legal clara. As ações da CNIL em 2024 focaram nessa lacuna: dados coletados para um serviço usados para trabalho com modelos sem base válida ou anonimização.

Os presets ajudam a satisfazer ambos os conjuntos de regras:

Nome e configuração do preset: o método documentado
Registros de processamento: prova de que o método foi aplicado
Aprovação do DPO: decisão registrada sobre a configuração

Isso cria a trilha de auditoria que ambas as leis exigem. Para os detalhes do Artigo 10, veja o guia de dados de treinamento da Lei de IA da UE.

Configuração de preset para conjuntos NLP

Tipos incluídos na maioria dos conjuntos NLP:

PERSON — Substituir por nomes similares
EMAIL_ADDRESS — Substituir por endereços sintéticos
PHONE_NUMBER — Substituir por números sintéticos
CREDIT_CARD / IBAN — Substituir ou Redigir
LOCATION — Substituir por lugares similares se a geografia importa; Redigir se não
DATE_OF_BIRTH — Redigir; agrupamento por idade frequentemente necessário

Tipos habitualmente excluídos:

Datas gerais — carimbos de tempo ajudam modelos temporais
Nomes de organizações — ajudam modelos de reconhecimento de entidades
URLs — ajudam modelos de links e referências

O responsável de ML e o DPO definem essas regras no preset aprovado. Os membros da equipe o aplicam. Eles não fazem escolhas de configuração.

Presets como memória institucional

Antes dos presets. A configuração correta de entidades vivia nas cabeças de três cientistas de dados. Dois saíram no T3. O conhecimento foi com eles.

Após os presets. A configuração vive em "ML Dev — Registros de clientes v2.1". O histórico de versões mostra quando foi criado, quem aprovou e o que mudou desde v2.0. Novos membros da equipe usam o preset e herdam todo o conhecimento incorporado.

A versão 2.1 adicionou detecção de IBAN após uma revisão identificar que faltava. A versão 2.0 foi aprovada em fevereiro de 2025. O registro está completo.

Para como os registros de processamento e fluxos de revisão do DPO funcionam, veja o guia de anonimização ML para RGPD.

Presets e o padrão de aplicação da CNIL

Os casos de IA da CNIL em 2024 estabelecem um padrão claro. Perguntam não apenas o que foi removido, mas como foi governado. Um preset compartilhado com registro de aprovação do DPO e registros de processamento responde isso diretamente.

Uma configuração ad hoc não faz isso. A mesma lacuna existe em outras autoridades de proteção de dados da UE que seguem a lógica da CNIL. Para mais sobre a abordagem de IA da CNIL, veja o guia de conformidade de IA RGPD da CNIL.

Conclusão

A documentação diz aos membros da equipe o que fazer. Os presets tornam fácil — e aplicável — fazer isso da mesma forma a cada vez.

Para conjuntos ML, a consistência é tanto um requisito legal quanto técnico. O preset satisfaz ambos ao mesmo tempo.

Autoridades de proteção de dados que examinam práticas de IA buscam evidências de anonimização uniforme. Um preset aplicado da mesma forma em todo o trabalho com conjuntos é a prova mais clara que você pode fornecer.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

Iniciar Teste Gratuito Ver Recursos

Privacidade Reproduzível: Por Que Equipes de ML...