anonym.legal

By · Last updated 2026-06-05

Povratak na blogGDPR i usklađenost

Sopstveno hostovani PII ne prolazi revizije uskladjenosti

spaCy 3.4.4 daje drugacije NER rezultate od spaCy 3.5.1. Finansijska firma otkriva da je 3% dokumenata drugacije anonimizovano u stagingu vs. produkciji.

June 5, 20266 min čitanja
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Zasto sopstveno hostovani PII alati ne prolaze revizije uskladjenosti

GDPR zahteva dokaz. Morate pokazati da je uklanjanje PII uradjeno na isti nacin svaki put. DPA revizori to proveravaju. Zele da vide jasan, dosledan metod koristjen na svim podacima.

Sopstveno hostovani Presidio ima pravi problem ovde. To nije problem konfiguracije. To je osnovno ogranicenje sopstveno hostovanih NLP alata.

Sta je drift okruzenja?

Sopstveno hostovani Presidio radi u dev-u, stagingu i produkciji. Svako od ovih moze da se ponasa na drugaciji nacin. Dakle, isti ulaz moze dati razlicite rezultate u svakom.

Ovo se naziva drift okruzenja. Ima cetiri glavna uzroka.

Drift verzije modela

spaCy modeli su verzionisani. Model en_core_web_lg 3.4.4 i en_core_web_lg 3.5.1 su obuceni na razlicitim podacima. Takodje koriste razlicite dizajne. Dakle, isti dokument moze dati razlicite NER rezultate sa svakom verzijom.

Uobicajeno podesavanje izgleda ovako:

  • Dev: en_core_web_lg 3.4.4 - instaliran na pocetku projekta
  • Staging: en_core_web_lg 3.5.0 - azuriran tokom rutinskog rada
  • Produkcija: en_core_web_lg 3.5.1 - azuriran tokom bezbednosne zakrpe

To su tri podesavanja. Tri verzije modela. Tri razlicita rezultata detekcije. Testovi prolaze u stagingu. Ali produkcija pokrecce drugaciji model. Dakle, jaz ostaje skriven.

Drift verzije zavisnosti

spaCy 3.4.x i 3.5.x se razlikuju u tome kako dele recenice. Ta promena utice na to kako se imena pronalaze blizu preloma recenice. Ove promene su u spaCy napomenama o izdanju. Ali vecina timova ih ne proverava zbog uticaja na PII.

Drift konfiguracije

Pragovi ocene postavljeni u dev-u mozda ne prelaze u produkciju. Prilagodjene liste reci takodje mogu da se razlikuju izmedju podesavanja. Ovi jazovi su cesti. Retko se prate. Pogledajte nas vodic za GDPR uskladjenost za to sta revizori traze.

Razlike u hardveru

Matematika u NLP modelima nije identicna na svim CPU-ovima i GPU-ovima. Potrosacki laptop i server mogu davati malo razlicite rezultate ocene. Dakle, neka imena mogu biti pronadjena na jednoj masini, ali ne i na drugoj.

Pravi nalaz revizije

Banka je testirala njihovo sopstveno hostovano Presidio podesavanje.

Test podesavanje: Presidio sa spaCy 3.4.4 na staging klasteru. Uzivo podesavanje: Presidio sa spaCy 3.5.1 na produkcijskom klasteru.

Pokrenuli su isti skup dokumenata kroz oba. Zatim su uporedili rezultate. Nalaz: 3% dokumenata je imalo razlicite rezultate uklanjanja PII. Neka imena su uhvacena u stagingu, ali ne i u produkciji. Neka su imala razlicite detektovane tekstualne raspone.

Nalaz revizije bio je direktan: "Firma ne moze pokazati dosledan zahtev tehnickih mera uklanjanja PII zbog razlika specificnih za podesavanje u izlazu detekcije."

GDPR Clan 32 zahteva odgovarajuce tehnicke mere. EDPB pravila o uklanjanju PII zahtevaju doslednost i ponovljivost. Stopa od 3% u 100.000 dokumenata mesecno znaci 3.000 dokumenata sa nedoslednim rezultatima mesecno. Neke su lazni negativi. PII koji bi staging uhvatio ostaje u uzivom izlazu. To je neuspeh uskladjenosti.

Banka je zatim presla na upravljani SaaS. Nalaz revizije je zatvoren. Pogledajte nasu stranicu za bezbednost i uskladjenost za to kako upravljana podesavanja rukuju ovim.

Zasto su upravljani servisi drugaciji

Upravljani servis pokrecce jednu verziju motora. Svi korisnici pokrecu istu verziju u isto vreme. Azuriranja modela se primenjuju iz jednog mesta. Konfiguracija se takodje upravlja iz jednog mesta, sa kompletnim dnevnikom promena. Hardver korisnika ne utice na rezultate.

Dakle, isti dokument obradjian danas daje isti rezultat sledeceg meseca. Ako se verzija motora promenila, ta promena je zabeleaena i verzionisana.

Razlika revizijskog traga je kljucna.

Revizijski trag sopstvenog hostovanja:

  • "Koristio Presidio 2.2.35 sa spaCy en_core_web_lg 3.5.1 na Ubuntu 22.04."
  • Da li je ovo bila ista verzija kao u stagingu? Nepoznato.
  • Da li se model promenio od kada je ovaj dokument bio obradjivan? Nepoznato osim ako se prati.
  • Da li je prag ocene isti kao u testiranju? Zavisi od upravljanja konfiguracijom.

Revizijski trag upravljanog servisa:

  • "Koristio anonym.legal API, verzija motora 4.22.1, u 2025-03-15T14:22:31Z."
  • Ista verzija za sve korisnike? Da.
  • Da li se promenila? Verzije motora su fiksne. Verzija 4.22.1 uvek znaci isti motor.
  • Da li je konfiguracija ponovljiva? Da. ID preseta je zabelezen. Konfiguracija u toj verziji se moze preuzeti.

Upravljani trag je jasan. Sopstveno hostovani trag zahteva pazljivo pracenje koje vecina timova preskace.

Kako poboljsati doslednost sopstvenog hostovanja

Ako je sopstveno hostovanje obavezno, mozete smanjiti drift sa cetiri koraka.

Prvo, fiksirajte verzije modela. Zabravljite tacne verzije modela u svim fajlovima za deployment. Blokirajte automatska azuriranja. Pratite verzije u upravljanju izvornim kodom.

Zatim, zamrznite kontejnerske slike. Izgradite Docker slike sa tacnim verzijama modela pecenim unutra. Oznacite svaku sliku sa verzijom modela, verzijom Presidio-a i datumom. Ne azurirajte bazne slike bez prethodnog testiranja.

Takodje, cuvajte konfiguraciju u kodu. Sacuvajte sva Presidio podesavanja u fajlovima pracenim u upravljanju izvornim kodom. Ovo ukljucuje detektore, pragove ocene i aktivne jezike. Deployujte konfiguraciju sa aplikacijom.

Konacno, testirajte kroz podesavanja. Posle bilo kog azuriranja, pokrenite fiksirani skup testnih dokumenata kroz novo podesavanje. Uporedite rezultate sa sacuvanim referentnim. Automatizujte ovu proveru. Pogledajte FAQ za uobicajena pitanja o automatizovanom PII regresijskom testiranju.

Ovi koraci pomazu. Ali takodje dodaju posao. Upravljani servis daje istu doslednost bez dodatnog truda.

Zakljucak

Dosleono uklanjanje PII ne pojavljuje se na listama karakteristika proizvoda. Ali postaje kriticno kada revizori traze dokaze.

Bez aktivne brige, sopstveno hostovani PII alati driftuju. Promene verzija dodaju tihe jazove. Ti jazovi pojavljuju se kao nalazi revizije.

Upravljani servisi pruzaju doslednost podrazumevano. Motor radi iz jednog mesta. Podesavanja korisnika ne uticu na rezultate. Za timove usredsredjene na uskladjenost, ovo je direktna prednost.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.