A Comissão Nationale de l'Informatique et des Libertés (CNIL) da França é a autoridade de proteção de dados mais tecnicamente exigente da UE. Enquanto outras APDs se concentram principalmente na conformidade processual, a CNIL publica orientações técnicas detalhadas — "recommandations" — que estabelecem padrões algorítmicos específicos para anonimização, pseudonimização e governança de dados de IA. 63% dos avisos formais da CNIL em 2024 citaram anonimização inadequada em sistemas de IA.
A Influência Técnica da CNIL Além da França
As orientações técnicas da CNIL são frequentemente citadas por outras APDs da UE:
Guia prático de anonimização (2023): O guia prático de anonimização da CNIL abrange k-anonimato, l-diversidade, privacidade diferencial e sua aplicação prática a conjuntos de dados franceses. Mais de 12 APDs da UE referenciam este guia em suas próprias orientações de aplicação (incluindo a IMY Suécia, que produziu sua própria versão baseada em parte na metodologia da CNIL).
Orientações sobre sistemas de IA (2024): As orientações de governança de IA da CNIL cobrem 6 categorias obrigatórias de anonimização para dados de treinamento de IA — a orientação mais específica da APD da UE sobre este tópico.
Requisitos técnicos de cookies: As orientações de aplicação de cookies da CNIL (regularmente atualizadas) exigem implementações técnicas específicas para plataformas de gerenciamento de consentimento — a orientação de APD mais tecnicamente específica sobre tecnologia de consentimento na UE.
O NIR: O Identificador Mais Sensível da França
O Numéro d'Inscription au Répertoire (NIR) — também chamado de número de segurança social — é um número de segurança social francês de 15 dígitos no formato:
S AAMMDDCCC OOO K
Onde:
- S = 1 dígito: sexo (1=masculino, 2=feminino)
- AA = 2 dígitos: ano de nascimento
- MM = 2 dígitos: mês de nascimento
- DD = 2 dígitos: departamento de nascimento (01-95, 2A/2B para Córsega, 97-99 para territórios ultramarinos, 99 para nascimento no exterior)
- CCC = 3 dígitos: código do município dentro do departamento
- OOO = 3 dígitos: número da ordem de nascimento
- K = 2 dígitos: chave de verificação (97 - (NIR mod 97))
O NIR codifica sexo, data de nascimento, local de nascimento e ordem de nascimento — tornando-o um dos identificadores nacionais mais ricos em informações da UE. A CNIL classifica o NIR como exigindo proteção elevada equivalente a dados de categoria especial.
Desafio de detecção: Ferramentas genéricas de PNL não detectam o NIR em 78% dos documentos, de acordo com a análise de 2024 da CNIL. As falhas específicas:
- A estrutura de 15 dígitos do NIR (sem separadores em muitos documentos) é confundida com outras sequências longas de números
- A codificação do departamento/município (dígitos 7-11) requer conhecimento geográfico para validação — ferramentas que não implementam o cálculo da chave mod-97 não conseguem distinguir números válidos do NIR de falsos positivos
- Departamentos corsos (2A/2B — letras, não dígitos) quebram ferramentas de correspondência de padrões que esperam apenas caracteres numéricos
SIREN/SIRET: Identificadores de Negócios em Documentos Franceses
Número SIREN: número de identificação de empresa francês de 9 dígitos com dígito de verificação de Luhn. Aparece em todos os documentos comerciais franceses.
Número SIRET: extensão de 14 dígitos do SIREN (SIREN de 9 dígitos + número de estabelecimento de 5 dígitos). O SIRET identifica exclusivamente um estabelecimento comercial específico, enquanto o SIREN identifica a entidade da empresa.
Documentos comerciais frequentemente contêm números SIRET juntamente com dados pessoais de representantes da empresa — as orientações de aplicação da CNIL tratam a combinação de SIRET + nome individual como criando informações identificáveis que acionam obrigações do GDPR.
Requisitos de Anonimização de IA da CNIL
As orientações de IA de 2024 da CNIL exigem 6 categorias específicas de anonimização para dados de treinamento de IA envolvendo dados pessoais franceses:
- Remoção de identificadores: Identificadores explícitos (nome, NIR, SIREN) devem ser substituídos por pseudônimos ou removidos
- Generalização de quasi-identificadores: Atributos que poderiam permitir reidentificação em combinação (idade, departamento, profissão) devem ser generalizados para reduzir a especificidade
- Adição de ruído: Atributos numéricos devem ter ruído calibrado adicionado para prevenir inferência
- Verificação de k-anonimato: Cada indivíduo no conjunto de dados deve ser indistinguível de pelo menos k-1 outros (a CNIL recomenda k≥5)
- Verificação de l-diversidade: Valores de atributos sensíveis devem ter diversidade adequada dentro de cada classe de equivalência
- Avaliação de risco de reidentificação: Antes da publicação, conjuntos de dados devem passar por avaliação de risco de reidentificação usando metodologia documentada
A CNIL constatou explicitamente que simplesmente remover o NIR e o nome completo de um conjunto de dados não é uma anonimização suficiente. Quase-identificadores adicionais (idade, código postal, profissão, especialidade médica) também devem ser abordados.
Contexto Bilingue Francês/Língua Regional
A França tem uma situação linguística complexa relevante para a detecção de PII:
Francês Metropolitano: Francês padrão falado na França — língua principal de todos os documentos oficiais.
Identificadores DOM-TOM: Territórios ultramarinos (Martinica, Guadalupe, Reunião, Guiana, Mayotte) têm seus próprios códigos administrativos nos números NIR (prefixo 97, 98 para departamentos ultramarinos) e convenções de nome locais.
Contexto Alsaciano: A região da Alsácia-Mosela tem convenções administrativas históricas alemãs — nomes de origem alemã e alguns formatos de documentos administrativos alemães aparecem nos registros administrativos franceses.
Francês Belga: Para organizações que operam em toda a França e Bélgica, os formatos de identificador francês e belga diferem (NIR vs. número de registro nacional belga), e o francês belga usa convenções de nome ligeiramente diferentes.
Para conformidade francesa: Detecção de NIR com validação de chave mod-97, detecção de SIREN/SIRET com validação de Luhn, NER em francês com suporte a caracteres acentuados (é, è, ê, ë, à, â, î, ô, û, ç, œ), e anonimização documentada atendendo ao quadro de 6 categorias da CNIL para dados de treinamento de IA.
Fontes: