anonym.legal

By · Last updated 2026-06-05

Nazaj na blogGDPR in skladnost

Lastno gostovani PII ne prestane revizij skladnosti

spaCy 3.4.4 daje drugacne rezultate NER kot spaCy 3.5.1. Financna institucija ugotovi, da je 3 % dokumentov v pripravljalnem okolju razlicno anonimiziranih v primerjavi s produkcijo.

June 5, 20266 min branja
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Zakaj lastno gostovana orodja za PII ne prestanejo revizij skladnosti

GDPR zahteva dokaze. Pokazati morate, da je bilo odstranjevanje PII opravljeno na enak nacin vsakic. Revizorji DPA to preverjajo. Zelijo videti jasno in dosledno metodo, ki je bila uporabljena pri vseh podatkih.

Lastno gostovani Presidio ima tukaj resnicen problem. Ni konfiguracijska tezava. Je temeljna omejitev lastno gostovanih orodij NLP.

Kaj je odmik okolja?

Lastno gostovani Presidio deluje v razvoju, pripravljalnem okolju in produkciji. Vsako od teh se lahko obnaša drugace. Torej isti vhod v vsakem od njih lahko da drugacne rezultate.

To se imenuje odmik okolja. Ima stiri glavne vzroke.

Odmik razlicice modela

Modeli spaCy so verzioniranimi. Model en_core_web_lg 3.4.4 in en_core_web_lg 3.5.1 sta bila ucena na razlicnih podatkih. Prav tako uporabljata razlicne nacine delovanja. Torej isti dokument lahko da z vsako razlicico drugacne rezultate NER.

Pogosta nastavitev je videti takole:

  • Razvoj: en_core_web_lg 3.4.4 -- nameščen ob zacetku projekta
  • Pripravljalno okolje: en_core_web_lg 3.5.0 -- posodobljeno med rutinskim delom
  • Produkcija: en_core_web_lg 3.5.1 -- posodobljeno med varnostnim popravkom

To so tri nastavitve. Tri razlicice modelov. Trije razlicni rezultati zaznavanja. Testi uspejo v pripravljalnem okolju. Toda produkcija zaganja drugacen model. Tako vrzel ostane skrita.

Odmik razlicice odvisnosti

spaCy 3.4.x in 3.5.x se razlikujeta v nacinu deljenja povedi. Ta sprememba vpliva na to, kako se najdejo imena v bliztni mejnih besednih zvez. Te spremembe so v beležkah o izdaji spaCy. Toda vecina ekip jih ne preverja glede vpliva na PII.

Odmik konfiguracije

Pragovi ocen, nastavljeni v razvoju, se morda ne bodo prenesli v produkcijo. Listi besed po meri se prav tako lahko razlikujejo med nastavitvami. Te vrzeli so pogoste. Redko se sledijo. Oglejte si naš vodic za skladnost GDPR za tisto, kar iščejo revizorji.

Razlike v strojni opremi

Matematika v modelih NLP ni enaka na vseh CPE in GPE. Porabljenišnikov prenosni racunalnik in strežnik lahko data rahlo drugacne rezultate ocen. Torej nekatera imena so morda najdena na enem stroju, a ne na drugem.

Ugotovitev resnicinega revizije

Banka je testirala svojo lastno gostovano nastavitev Presidia.

Testna nastavitev: Presidio s spaCy 3.4.4 na pripravljalnem gruci. Ziva nastavitev: Presidio s spaCy 3.5.1 na produkcijski gruci.

Zagnavali so isti nabor dokumentov skozi obe. Nato so primerjali rezultate. Ugotovitev: 3 % dokumentov je imelo drugacne rezultate odstranjevanja PII. Nekatera imena so bila ujeta v pripravljalnem okolju, a ne v produkciji. Nekatera so imela razlicna zaznana besedilna razpona.

Ugotovitev revizije je bila neposredna: "Podjetje ne more pokazati dosledno uporabo tehnicnih ukrepov za odstranjevanje PII zaradi razlik v izhodu zaznavanja, specificnih za posamezno nastavitev."

Clanek 32 GDPR zahteva ustrezne tehnicne ukrepe. Pravila EDPB za odstranjevanje PII zahtevajo doslednost in ponovljivost. 3-odstotna stopnja pri 100.000 dokumentih na mesec pomeni 3.000 dokumentov z nedoslednimi rezultati vsak mesec. Nekateri so lazni negativni. PII, ki bi ga pripravljalno okolje ujelo, ostane v zivednem izhodu. To je napaka v skladnosti.

Banka je nato prešla na upravljani SaaS. Ugotovitev revizije je bila zaprta. Oglejte si naše strani za varnost in skladnost, kako upravljane nastavitve obravnavajo to.

Zakaj so upravljane storitve drugacne

Upravljana storitev zaganja eno razlicico motorja. Vsi uporabniki hkrati zaganajo isto razlicico. Posodobitve modelov se nanasajo z enega mesta. Konfiguracija se prav tako upravlja z enega mesta z dnevnikom vseh sprememb. Strojna oprema uporabnika ne vpliva na rezultate.

Torej isti dokument, obdelan danes, da enak rezultat naslednji mesec. Ce se je razlicica motorja spremenila, je ta sprememba evidentirana in verzionirana.

Razlika revizijske sledi je kljucna.

Revizijska sled lastnega gostovanja:

  • "Uporabljen Presidio 2.2.35 s spaCy en_core_web_lg 3.5.1 na Ubuntu 22.04."
  • Ali je bila to ista razlicica kot v pripravljalnem okolju? Neznano.
  • Ali se je model spremenil, odkar je bil obdelan ta dokument? Neznano, razen ce je sledeno.
  • Ali je prag ocen enak kot pri testiranju? Odvisno od upravljanja konfiguracije.

Revizijska sled upravljane storitve:

  • "Uporabljen API anonym.legal, razlicica motorja 4.22.1, ob 2025-03-15T14:22:31Z."
  • Ista razlicica za vse uporabnike? Da.
  • Ali se je spremenila? Razlicice motorja so pritrjene. Razlicica 4.22.1 vedno pomeni isti motor.
  • Ali je konfiguracija ponovljiva? Da. ID prednastavitve je evidentiran. Konfiguracijo pri tej razlicici je mogoce pridobiti.

Upravljana sled je jasna. Lastno gostovana sled zahteva skrbno sledenje, ki ga vecina ekip preskoči.

Kako izboljšati doslednost lastnega gostovanja

Ce je lastno gostovanje zahtevano, lahko z ststirimi koraki zmanjšate odmik.

Prvic, pritrdite razlicice modelov. Zaklernite tocne razlicice modelov v vseh namestitvenih datotekah. Blokirajte samodejne posodobitve. Sledite razlicicam v nadzoru izvorne kode.

Naslednje, zamrznite slike vsebnikov. Zgradite Docker slike z natancnimi razlicicami modelov, vgrajenimi v njih. Oznacite vsako sliko z razlicico modela, razlicico Presidia in datumom. Brez testiranja ne posodabljajte osnovnih slik.

Prav tako hranite konfiguracijo v kodi. Shranite vse nastavitve Presidia v datoteke, sledene v nadzoru razlicic. To vkljucuje detektorje, pragove ocen in aktivne jezike. Namestite konfiguracijo z aplikacijo.

Koncno testirajte v vseh nastavitvah. Po vsaki posodobitvi zazenite fiksni nabor testnih dokumentov skozi novo nastavitev. Primerjajte rezultate s shranjenim referenenim naborom. Avtomatizirajte ta pregled. Oglejte si FAQ za pogosta vprašanja o avtomatiziranem regresijskem testiranju PII.

Ti koraki pomagajo. A prav tako dodajajo delo. Upravljana storitev zagotavlja enako doslednost brez dodatnega napora.

Bistvo

Dosledno odstranjevanje PII se ne pojavi v listinah o izdelkih. Toda postane kriticno, ko revizorji zahtevajo dokaze.

Brez aktivne skrbi se lastno gostovana orodja za PII oddaljijo. Spremembe razlicic dodajo tihe vrzeli. Te vrzeli se pojavijo kot ugotovitve revizije.

Upravljane storitve privzeto zagotavljajo doslednost. Motor teece z enega mesta. Nastavitve uporabnikov ne vplivajo na rezultate. Za ekipe, osredotocene na skladnost, je to neposredna prednost.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.