By · Last updated 2026-06-05

Tornar al BlogTècnic

Presidio: 3 setmanes de configuracio vs. IIP gestionada

Microsoft Presidio te milers d'estrelles a GitHub i centenars de problemes oberts. La complexitat de configuracio, la sobrecarga d'integracio de PySpark i les dependencies de Python fan que molts equips busquin alternatives.

June 5, 20266 min llegit
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: una eina potent pero de llarga configuracio

Actualitzat per al 2026.

Microsoft Presidio es una eina solida per a la deteccio i desidentificacio de IIP. Pero es un gran projecte d'enginyeria. Executar-la en produccio requereix un esforc real. La comunitat hi esta d'acord.

El problema #237 de GitHub es un bon exemple. Fins i tot els desenvolupadors experimentats topen amb conflictes d'entorn. S'encallen amb fallades de carrega del model i errors d'API. Poden passar dies de depuracio abans de la primera execucio que funcioni.

Que mostren les dades de la comunitat

El repositori de GitHub de Presidio te milers d'estrelles. Aixo mostra un fort interes. Pero la llista de problemes oberts conta una historia diferent.

Problemes d'entorn: Els conflictes de versions de Python son habituals. Tambe ho son els errors de compatibilitat del model spaCy i els errors del runtime ONNX. Aquests problemes afecten els desenvolupadors que segueixen la documentacio exactament.

Fallades de carrega del model: Els models spaCy es descarreguen be pero fallen en carregar-se en algunes configuracions. Els contenidors i les configuracions de poca memoria son els llocs de problemes habituals. La seva solucio requereix un coneixement profund dels internals de spaCy.

Fallades de l'API en produccio: L'analitzador funciona be en desenvolupament. Falla sota la carrega de produccio. Els problemes de threading i la pressio de memoria dels models NLP son les principals causes.

Sobrecarga d'integracio: El blog de Ploomber sobre aquest marc cobreix el quadre complet. Utilitza multiples serveis: l'analitzador, l'anonimitzador i un redactor d'imatges opcional. Vincular-los afegeix feina. La transferencia de dades entre serveis n'afegeix mes.

El cas de Microsoft Fabric

La propia documentacio de Microsoft Fabric mostra la diferencia entre "disponible" i "que funciona".

Una entrada del blog de Fabric sobre PySpark ho diu directament: la configuracio "requereix gestionar dependencies externes i logica personalitzada". Els usuaris de Fabric van triar una plataforma de cloud gestionada per evitar aquest tipus de feina. Pero afegir eines externes torna a portar la complexitat.

Els passos per a la configuracio de PySpark son:

  1. Installeu presidio-analyzer i presidio-anonymizer als quaderns de Fabric.
  2. Descarregueu els models spaCy a l'entorn de Fabric.
  3. Escriviu embolcalls de UDF de PySpark per a l'analitzador i l'anonimitzador.
  4. Gestioneu el paquetatge del model spaCy per a us entre els treballadors de Spark.
  5. Configureu la deteccio d'idioma per a conjunts de dades multi-idioma.

Cada pas te modes de fallada coneguts. Els equips en aquest cami sovint passen entre una i dues setmanes abans de processar el primer document.

Dues vies: allotjament propi vs. gestionat

L'enfocament gestionat inverteix el repte de configuracio.

Via d'allotjament propi:

  1. Installeu Docker.
  2. Configureu docker-compose.yml.
  3. Descarregueu els models spaCy.
  4. Depureu la xarxa de contenidors.
  5. Configureu els punts finals de l'API.
  6. Proveu la deteccio d'entitats.
  7. Corregiu els falsos positius i negatius.
  8. Construiu reconeixedors personalitzats per a tipus d'entitats no estandards.
  9. Afegiu el registre d'auditoria.
  10. Ajusteu per a la carrega de produccio.

Temps fins al primer document desidentificat: de tres a vint-i-un dies.

Via del servei gestionat:

  1. Creeu un compte.
  2. Pengeu un document o crideu l'API.

Temps fins al primer document desidentificat: dotze minuts.

Les dues vies utilitzen el mateix enfocament de deteccio. La via gestionada s'executa en maquinari que alguna altra persona manté.

Quan te mes sentit l'allotjament propi

El servei gestionat no s'adapta a tots els casos.

Entrenament de model personalitzat: Alguns casos necessiten nous models NER. Els noms de medicaments propis o els codis de productes interns son exemples. L'allotjament propi us dona les eines d'entrenament.

Processament natiu de Spark: Algunes canalitzacions necessiten la deteccio de IIP dins de l'executor de Spark. Una crida a l'API externa afegeix latencia que trenca aquest patro. L'allotjament propi es l'unica opcio aqui.

Control total: Algunes politiques de seguretat bloquegen totes les crides a l'API externa en una canalitzacio de dades. L'Aplicacio d'Escriptori d'anonym.legal s'executa completament sense connexio. L'allotjament propi es l'opcio completament aillada.

Per a la majoria de casos, processament de documents, fluxos de treball d'API i eines de conformitat, el servei gestionat elimina el projecte d'infraestructura per complet.

Executar les dues vies al mateix temps

El nivell gratuit us dona 200 credits al mes. Aixo es suficient per provar documents reals. Sense targeta de credit. Sense compromis.

Aqui teniu un enfocament parallel senzill.

Setmana 1: Configureu l'analitzador allotjat localment en desenvolupament. Observeu com de complexa sera la configuracio de produccio.

Dia 1, en parallel: Creeu un compte del servei gestionat. Executeu els mateixos documents de prova a traves de l'API gestionada. Compareu els resultats.

Preguntes clau:

  • El servei gestionat detecta els tipus que necessiteu? Cobreix mes de 285 tipus d'entitats. La construccio de codi obert cobreix aproximadament 40 per defecte.
  • La precisio es suficient?
  • L'API s'adapta al vostre patro?
  • Els plans s'adapten al vostre volum i pressupost?

Si la resposta a tot es si: el servei gestionat elimina el projecte d'infraestructura. Si no: les mancances que trobeu son raons reals per quedar-se amb l'allotjament propi.

Vegeu com altres equips han pres aquesta decisio als nostres casos d'estudi. Comproveu les salvaguardes i els detalls de proteccio a la nostra pagina de seguretat i conformitat. Trobeu respostes a les preguntes habituals a les nostres FAQ.

En resum

Una configuracio de tres setmanes no es una fallada de la documentacio ni del marc. Mostra el que necessita la infraestructura NLP de qualitat de produccio. Els reptes son reals. Requereixen temps i habilitat per resoldre'ls.

Per a molts equips, la desidentificacio de IIP es un requisit de conformitat. No es una tasca d'enginyeria principal. El servei gestionat ofereix la mateixa deteccio. Ho fa sense el projecte d'infraestructura. Dotze minuts des del registre fins al primer document desidentificat mante el cost d'avaluacio molt baix.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.