By · Last updated 2026-06-05

Zpět na blogTechnické

Presidio: 3 týdny nastavení vs. spravované PII

Microsoft Presidio má tisíce hvězdiček na GitHubu a stovky otevřených issues. Složitost nastavení, overhead integrace PySpark a konflikty závislostí Pythonu.

June 5, 20266 min čtení
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: Výkonný nástroj, zdlouhavé nastavení

Aktualizováno pro rok 2026.

Microsoft Presidio je solidní nástroj pro detekci a de-identifikaci PII. Je to ale velký inženýrský projekt. Jeho provoz v produkci vyžaduje skutečné úsilí. Komunita se na tom shoduje.

GitHub Issue č. 237 je dobrým příkladem. I zkušení vývojáři narazí na konflikty prostředí. Narážejí na selhání načítání modelů a chyby API. Dny ladění mohou uplynout, než nastane první úspěšný spuštění.

Co říkají data komunity

Repozitář Presidio na GitHubu má tisíce hvězdiček. To svědčí o silném zájmu. Ale seznam otevřených issues říká jiný příběh.

Problémy s prostředím: Konflikty verzí Pythonu jsou časté. Stejně tak neshody modelů spaCy a chyby ONNX runtime. Tyto problémy postihují vývojáře, kteří přesně dodržují dokumentaci.

Selhání načítání modelů: Modely spaCy se stáhnou v pořádku, ale v některých nastaveních se nepodaří načíst. Kontejnery a konfigurace s nízkou pamětí jsou běžnými problémovými místy. Jejich oprava vyžaduje hlubokou znalost internals spaCy.

Selhání API v produkci: Analyzátor funguje v pořádku ve vývojovém prostředí. Pod produkčním zatížením se rozbíjí. Hlavními příčinami jsou problémy s vlákny a paměťový tlak ze strany NLP modelů.

Overhead integrace: Blog Ploomber o tomto frameworku pokrývá celý obrázek. Využívá více služeb — analyzátor, anonymizátor a volitelný redaktor obrázků. Jejich propojení přidává práci. Přenos dat mezi službami přidává další.

Případ Microsoft Fabric

Vlastní dokumentace Microsoftu Fabric ukazuje mezeru mezi „dostupné” a „funkční”.

Blogový příspěvek Fabric o PySpark to říká přímo: nastavení „vyžaduje správu externích závislostí a vlastní logiku.” Uživatelé Fabric zvolili spravovanou cloudovou platformu, aby se vyhnuli tomuto druhu práce. Ale přidání externích nástrojů složitost vrací.

Kroky nastavení pro PySpark jsou:

  1. Instalace presidio-analyzer a presidio-anonymizer v noteboocích Fabric.
  2. Stažení modelů spaCy v prostředí Fabric.
  3. Napsání PySpark UDF wrapperů pro analyzátor a anonymizátor.
  4. Zpracování balení modelů spaCy pro použití napříč Spark workery.
  5. Nastavení detekce jazyka pro vícejazyčné datové sady.

Každý krok má známé způsoby selhání. Týmy na této cestě často stráví jeden až dva týdny, než zpracují svůj první dokument.

Dvě cesty: Vlastní hosting vs. spravovaná služba

Spravovaný přístup obrátí výzvu nastavení.

Cesta vlastního hostingu:

  1. Nainstalujte Docker.
  2. Nastavte docker-compose.yml.
  3. Stáhněte modely spaCy.
  4. Odlaďte síť kontejnerů.
  5. Nastavte API endpointy.
  6. Otestujte detekci entit.
  7. Opravte falešně pozitivní a negativní výsledky.
  8. Sestavte vlastní rozpoznávače pro nestandardní typy entit.
  9. Přidejte auditní logování.
  10. Optimalizujte pro produkční zatížení.

Doba do prvního de-identifikovaného dokumentu: tři až jednadvacet dní.

Cesta spravované služby:

  1. Vytvořte účet.
  2. Nahrajte dokument nebo zavolejte API.

Doba do prvního de-identifikovaného dokumentu: dvanáct minut.

Obě cesty používají stejný detekční přístup. Spravovaná cesta běží na hardwaru, který spravuje někdo jiný.

Kdy dává vlastní hosting větší smysl

Spravovaná služba nevyhovuje každému případu.

Trénování vlastních modelů: Některé případy vyžadují nové NER modely. Proprietární názvy léků nebo interní kódy produktů jsou příklady. Vlastní hosting vám dává trénovací nástroje.

Zpracování nativní v Spark: Některé pipeline potřebují detekci PII uvnitř Spark executoru. Volání externího API přidává latenci, která tento vzor rozbíjí. Vlastní hosting je zde jedinou možností.

Plná kontrola: Některé bezpečnostní politiky blokují veškerá volání externího API v datové pipeline. Desktopová aplikace anonym.legal funguje plně offline. Vlastní hosting je plně izolovaná možnost.

Pro většinu případů — zpracování dokumentů, API workflow a nástroje pro shodu — spravovaná služba odstraní celý infrastrukturní projekt.

Provoz obou cest současně

Bezplatný plán vám dává 200 kreditů měsíčně. To stačí na testování reálných dokumentů. Bez platební karty. Bez závazku.

Jednoduchý paralelní přístup.

Týden 1: Nastavte vlastní analyzátor ve vývojovém prostředí. Zjistěte, jak složitá bude produkční konfigurace.

Den 1, souběžně: Vytvořte účet u spravované služby. Spusťte stejné testovací dokumenty přes spravované API. Porovnejte výsledky.

Klíčové otázky:

  • Detekuje spravovaná služba typy, které potřebujete? Pokrývá 285+ typů entit. Open-source build pokrývá ve výchozím stavu přibližně 40.
  • Je přesnost dostatečná?
  • Odpovídá API vašemu vzoru?
  • Odpovídají plány vašemu objemu a rozpočtu?

Pokud ano ke všemu: spravovaná služba odstraní infrastrukturní projekt. Pokud ne: mezery, které najdete, jsou skutečnými důvody pro vlastní hosting.

Podívejte se, jak jiné týmy toto rozhodnutí učinily, v našich případových studiích. Zkontrolujte záruky a ochranné detaily na naší stránce bezpečnosti a shody. Najděte odpovědi na časté otázky v našem FAQ.

Stručně řečeno

Třítýdenní nastavení není selháním dokumentace ani frameworku. Ukazuje, co produkční NLP infrastruktura vyžaduje. Výzvy jsou skutečné. Vyřešit je zabere čas a dovednosti.

Pro mnoho týmů je de-identifikace PII požadavkem compliance. Není to klíčový inženýrský úkol. Spravovaná služba poskytuje stejnou detekci. Dělá to bez infrastrukturního projektu. Dvanáct minut od registrace k prvnímu de-identifikovanému dokumentu udržuje náklady na hodnocení velmi nízké.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.