By · Last updated 2026-06-05

Voltar ao BlogTécnico

Presidio É Poderoso. Também É um Projeto de...

O Microsoft Presidio tem milhares de estrelas no GitHub e centenas de problemas abertos.

June 5, 20266 min de leitura
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: Ferramenta Poderosa, Configuração Longa

Atualizado para 2026.

O Microsoft Presidio é uma ferramenta sólida para deteção de DPI e de-identificação. Mas é um grande projeto de engenharia. Fazê-lo funcionar em produção exige esforço real. A comunidade concorda com isso.

O problema do GitHub #237 é um bom exemplo. Até programadores experientes encontram conflitos de ambiente. Eles deparam-se com erros ao carregar modelos e erros de API. Dias de depuração podem passar antes do primeiro funcionamento com sucesso.

O que os Dados da Comunidade Mostram

O repositório do Presidio no GitHub tem milhares de estrelas. Isso mostra um forte interesse. Mas a lista de problemas abertos conta uma história diferente.

Problemas de ambiente: Conflitos de versões do Python são comuns. Também o são incompatibilidades de modelos spaCy e erros de runtime do ONNX. Esses problemas afetam programadores que seguem a documentação à risca.

Erros ao carregar modelos: Os modelos spaCy são descarregados corretamente, mas não carregam em alguns ambientes. Contentores e configurações com pouca memória são pontos de conflito frequentes. Corrigi-los requer um conhecimento profundo dos componentes internos do spaCy.

Erros de API em produção: O analisador funciona bem em desenvolvimento. Falha sob carga de produção. Problemas de threading e pressão de memória dos modelos NLP são as causas principais.

Custo de integração: O blog da Ploomber sobre este framework cobre o panorama completo. Usa vários serviços — o analisador, o anonimizador e um redator de imagens opcional. Coordená-los gera trabalho. A transferência de dados entre serviços gera mais.

O Caso do Microsoft Fabric

A própria documentação do Microsoft Fabric mostra a lacuna entre "disponível" e "a funcionar."

Uma publicação do blog do Fabric sobre PySpark afirma isso claramente: a configuração "requer a gestão de dependências externas e lógica personalizada." Os utilizadores do Fabric escolheram uma plataforma cloud gerida para evitar esse tipo de trabalho. Mas adicionar ferramentas externas traz a complexidade de volta.

Os passos para a configuração do PySpark são:

  1. Instalar o presidio-analyzer e o presidio-anonymizer nos notebooks do Fabric.
  2. Descarregar os modelos spaCy no ambiente do Fabric.
  3. Escrever wrappers UDF do PySpark para o analisador e o anonimizador.
  4. Gerir a serialização dos modelos spaCy para uso nos workers do Spark.
  5. Configurar a deteção de idioma para conjuntos de dados multilingues.

Cada passo tem modos de falha conhecidos. As equipas neste caminho frequentemente passam uma a duas semanas antes de processarem o seu primeiro documento.

Dois Caminhos: Auto-alojado vs. Gerido

A abordagem gerida inverte o desafio de configuração.

Caminho auto-alojado:

  1. Instalar o Docker.
  2. Configurar o docker-compose.yml.
  3. Descarregar os modelos spaCy.
  4. Depurar a rede de contentores.
  5. Configurar os endpoints da API.
  6. Testar a deteção de entidades.
  7. Corrigir falsos positivos e negativos.
  8. Construir reconhecedores personalizados para tipos de entidades não padrão.
  9. Adicionar registo de auditoria.
  10. Otimizar para a carga de produção.

Tempo até ao primeiro documento de-identificado: três a vinte e um dias.

Caminho de serviço gerido:

  1. Criar uma conta.
  2. Carregar um documento ou chamar a API.

Tempo até ao primeiro documento de-identificado: doze minutos.

Ambos os caminhos usam a mesma abordagem de deteção. O caminho gerido funciona em infraestrutura que outra pessoa mantém.

Quando o Auto-alojamento Faz Mais Sentido

O serviço gerido não se adapta a todos os casos.

Treino de modelos personalizados: Alguns casos requerem novos modelos NER. Nomes de medicamentos proprietários ou códigos de produtos internos são exemplos. O auto-alojamento dá-lhe as ferramentas de treino.

Processamento nativo do Spark: Alguns pipelines precisam de deteção de DPI dentro do executor do Spark. Uma chamada a uma API externa adiciona latência que quebra esse padrão. O auto-alojamento é a única opção aqui.

Controlo total: Algumas políticas de segurança bloqueiam todas as chamadas a APIs externas num pipeline de dados. A aplicação de ambiente de trabalho da anonym.legal funciona totalmente offline. O auto-alojamento é a opção totalmente isolada.

Para a maioria dos casos — processamento de documentos, fluxos de trabalho de API e ferramentas de conformidade — o serviço gerido elimina o projeto de infraestrutura por completo.

Executar Ambos os Caminhos ao Mesmo Tempo

O nível gratuito dá-lhe 200 créditos por mês. É suficiente para testar documentos reais. Sem cartão de crédito. Sem compromisso.

Aqui está uma abordagem paralela simples.

Semana 1: Configurar o analisador auto-alojado em desenvolvimento. Ver quão complexa será a configuração de produção.

Dia 1, em paralelo: Criar uma conta de serviço gerido. Passar os mesmos documentos de teste pela API gerida. Comparar os resultados.

Questões-chave:

  • O serviço gerido deteta os tipos de que precisa? Cobre mais de 285 tipos de entidades. O build de código aberto cobre cerca de 40 por padrão.
  • A precisão é suficientemente boa?
  • A API adapta-se ao seu padrão?
  • Os planos correspondem ao seu volume e orçamento?

Se sim em tudo: o serviço gerido elimina o projeto de infraestrutura. Se não: as lacunas que encontra são razões reais para continuar com o auto-alojamento.

Descubra como outras equipas tomaram esta decisão nos nossos casos de estudo. Verifique os detalhes de salvaguardas na nossa página de segurança e conformidade. Encontre respostas a perguntas comuns nas nossas FAQ.

Em Resumo

Uma configuração de três semanas não é uma falha da documentação ou do framework. Mostra o que a infraestrutura NLP pronta para produção precisa. Os desafios são reais. Requerem tempo e competências para os resolver.

Para muitas equipas, a de-identificação de DPI é um requisito de conformidade. Não é uma tarefa central de engenharia. O serviço gerido fornece a mesma deteção. E faz-o sem o projeto de infraestrutura. Doze minutos desde o registo até ao primeiro documento de-identificado mantém o custo de avaliação muito baixo.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.