anonym.legal

By · Last updated 2026-06-05

Nazaj na blogTehnično

Presidio: 3-tedenska nastavitev ali upravljani PII

Microsoft Presidio ima tisoci zvezdic na GitHubu in na stotine odprtih tezav. Kompleksnost nastavitve, overhead integracije PySpark in odvisnosti Python.

June 5, 20266 min branja
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: zmogljivo orodje, dolga nastavitev

Posodobljeno za leto 2026.

Microsoft Presidio je solidno orodje za zaznavanje PII in razosebljanje. Toda je velik inzenirski projekt. Izvajanje v produkciji zahteva pravi trud. Skupnost se glede tega strinja.

GitHub tezava #237 je dober primer. Tudi izkušeni razvijalci se zaletijo v konflikte okolja. Naletijo na napake pri nalaganju modelov in napake API. Preden prejmejo prvi delujoce zagon, lahko minejo dnevi odpravljanja napak.

Kaj kazejo podatki skupnosti

Repozitorij GitHub Presidia ima tisoci zvezdic. To kaze na mocno zanimanje. A seznam odprtih tezav pripoveduje drugacno zgodbo.

Tezave z okoljem: Konflikti razlicic Python so pogosti. Enako velja za neskladja modelov spaCy in napake okolja izvajanja ONNX. Te tezave prizadenejo razvijalce, ki tocno sledijo dokumentaciji.

Napake pri nalaganju modelov: Modeli spaCy se uspešno prenesejo, a se v nekaterih nastavitvah ne uspejo naloziti. Vsebniki in konfiguracije z malo pomnilnika so pogosta mesta tezav. Njihova odprava zahteva globoko poznavanje notranjih mehanizmov spaCy.

Napake API v produkciji: Analizator deluje dobro v razvoju. Odpove pod produkcijsko obremenitev. Težave z nitmi in pomnilniški pritisk iz modelov NLP sta glavni vzroki.

Overhead integracije: Blog Ploomber o tem ogrodju pokriva celotno sliko. Uporablja vec storitev -- analizator, anonimizator in neobvezen redaktor slik. Njihovo medsebojno povezovanje zahteva trud. Prenos podatkov med storitvami doda vec.

Primer Microsoft Fabric

Lastna dokumentacija Microsoft Fabric kaze vrzel med "na voljo" in "delujoce".

Blog post o Fabricu za PySpark to neposredno navaja: nastavitev "zahteva upravljanje zunanjih odvisnosti in lastne logike." Uporabniki Fabricea so izbrali upravljano platformo v oblaku, da bi preskocili to vrsto dela. Toda dodajanje zunanjih orodij prinese kompleksnost nazaj.

Koraki za nastavitev PySpark so:

  1. Namestite presidio-analyzer in presidio-anonymizer v zvezke Fabric.
  2. Prenesite modele spaCy v okolje Fabric.
  3. Napisite ovojnice PySpark UDF za analizator in anonimizator.
  4. Obvladajte pakiranje modelov spaCy za uporabo v delavcih Spark.
  5. Nastavite zaznavanje jezika za vecjezicne nabore podatkov.

Vsak korak ima znane nacine odpovedi. Ekipe na tej poti pogosto porabijo en do dva tedna, preden obdelajo prvi dokument.

Dve poti: lastno gostovanje ali upravljano

Upravljani pristop obrne izziv nastavitve.

Pot z lastnim gostovanjem:

  1. Namestite Docker.
  2. Nastavite docker-compose.yml.
  3. Prenesite modele spaCy.
  4. Odpravljajte napake v omrezju vsebnikov.
  5. Nastavite koncne tocke API.
  6. Testirajte zaznavanje entitet.
  7. Odpravite lazne pozitivne in negativne.
  8. Zgradite prepoznavalnike po meri za niestandardne vrste entitet.
  9. Dodajte revizijsko beleženje.
  10. Nastavite za produkcijsko obremenitev.

Cas do prvega razosebljenega dokumenta: tri do enaindvajset dni.

Pot z upravljano storitvijo:

  1. Ustvarite racun.
  2. Nalozite dokument ali klicite API.

Cas do prvega razosebljenega dokumenta: dvanajst minut.

Obe poti uporabljata enak pristop k zaznavanju. Upravljana pot deluje na strojni opremi, ki jo vzdrzuje nekdo drug.

Kdaj je lastno gostovanje bolj smiselno

Upravljana storitev ne ustreza vsakemu primeru.

Ucenje modelov po meri: Nekateri primeri potrebujejo nove modele NER. Lastniška imena zdravil ali notranje kode izdelkov so primeri. Lastno gostovanje vam da orodja za ucenje.

Obdelava z izvorno Spark: Nekateri cevovodi potrebujejo zaznavanje PII znotraj izvajalca Spark. Klic zunanjega API doda zakasnitev, ki prekine ta vzorec. Lastno gostovanje je tu edina rešitev.

Popoln nadzor: Nekatere varnostne politike blokirajo vse zunanje klice API v cevovodu podatkov. Namizna aplikacija anonym.legal deluje povsem brez povezave. Lastno gostovanje je povsem izolirana moznost.

Za vecino primerov -- obdelavo dokumentov, poteke dela API in orodja za skladnost -- upravljana storitev v celoti odpravlja infrastrukturni projekt.

Vzporedni zagon obeh poti

Brezplacna raven vam da 200 kreditov na mesec. To je dovolj za testiranje resnicnih dokumentov. Brez kreditne kartice. Brez zaveze.

Tukaj je preprost vzporeden pristop.

Teden 1: Nastavite lastni analizator v razvoju. Vidite, kako kompleksna bo produkcijska konfiguracija.

1. dan, vzporedno: Ustvarite racun upravljane storitve. Zazenite iste testne dokumente skozi upravljani API. Primerjajte rezultate.

Kljucna vprašanja:

  • Ali upravljana storitev zazna vrste, ki jih potrebujete? Pokriva 285+ vrst entitet. Lastna zgradnja privzeto pokriva priblizno 40.
  • Ali je tocnost dovolj dobra?
  • Ali API ustreza vašemu vzorcu?
  • Ali paketi ustrezajo vašemu obsegu in proracunu?

Ce da pri vsem: upravljana storitev odpravlja infrastrukturni projekt. Ce ne: vrzeli, ki jih najdete, so pravi razlogi za ostati pri lastnem gostovanju.

Poglejte, kako so druge ekipe sprejele to odlocitev v naših primerih iz prakse. Preverite zaščitne ukrepe in podrobnosti zaščite na naši strani za varnost in skladnost. Odgovore na pogosta vprašanja najdete v našem FAQ.

Skratka

Tritedenská nastavitev ni napaka dokumentacije ali ogrodja. Kaze, kaj potrebuje produkcijska NLP infrastruktura. Izzivi so resnicni. Zahtevajo cas in znanje za rešitev.

Za mnoge ekipe je razosebljanje PII zahteva skladnosti. Ni osrednja inzenirska naloga. Upravljana storitev zagotavlja enako zaznavanje. Brez infrastrukturnega projekta. Dvanajst minut od prijave do prvega razosebljenega dokumenta ohranja strošek vrednotenja zelo nizek.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.