By · Last updated 2026-06-05

Povratak na BlogGDPR & Usklađenost

Samo-hostirana PII rjesenja ne prolaze revizije uskladivanja

spaCy 3.4.4 daje drugacije NER rezultate od spaCy 3.5.1. Financijska institucija otkriva da je 3% dokumenata anonimizirana razlicito u stagingu vs produkciji.

June 5, 20266 min čitanja
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Zasto samo-hostirani PII alati ne prolaze revizije uskladivanja

GDPR zahtijeva dokaz. Morate pokazati da je uklanjanje PII-a obavljeno na isti nacin svaki put. Revizori DPA-a to provjeravaju. Zele vidjeti jasnu, dosljednu metodu koristenu kroz sve podatke.

Samo-hostirani Presidio ima stvarni problem ovdje. To nije problem konfiguracije. To je temeljno ogranicenje samo-hostiranih NLP alata.

Sto je odstupanje okruzenja?

Samo-hostirani Presidio radi u razvoju, stagingu i produkciji. Svako od njih moze se ponasati drugacije. Dakle, isti ulaz moze dati razlicite rezultate u svakom.

Ovo se naziva odstupanje okruzenja. Ima cetiri glavna uzroka.

Odstupanje verzija modela

spaCy modeli su verzionirани. Model en_core_web_lg 3.4.4 i en_core_web_lg 3.5.1 obuceni su na razlicitim podacima. Takodje koriste razlicite dizajne. Dakle, isti dokument moze dati razlicite NER rezultate s svakom verzijom.

Uobicajeno postavljanje izgleda ovako:

  • Razvoj: en_core_web_lg 3.4.4 - instaliran na pocetku projekta
  • Staging: en_core_web_lg 3.5.0 - azuriran tijekom rutinskog rada
  • Produkcija: en_core_web_lg 3.5.1 - azuriran tijekom sigurnosnog popravka

To su tri postavljanja. Tri verzije modela. Tri razlicita rezultata detekcije. Testovi prolaze u stagingu. Ali produkcija pokrece drugaciji model. Dakle, jaz ostaje skriven.

Odstupanje verzija ovisnosti

spaCy 3.4.x i 3.5.x razlikuju se u tome kako dijele recenice. Ta promjena utjece na to kako se imena pronalaze blizu granica recenica. Ove promjene su u biljesкama izdanja spaCy-a. Ali vecina timova ih ne provjerava za ucinak na PII.

Odstupanje konfiguracije

Pragovi ocjena postavljeni u razvoju mozda se nece prenijeti u produkciju. Prilagodeni popisi rijeci takodje mogu biti razliciti izmedju postavljanja. Ovi jazu su cesti. Rijetko se prate. Pogledajte nas vodic za GDPR uskladivanje za informacije o tome sto revizori traze.

Razlike u hardveru

Matematika u NLP modelima nije identicna na svim CPU-jevima i GPU-jevima. Potrosacki laptop i server mogu dati malo razlicite rezultate ocjenjivanja. Dakle, neka se imena mogu pronaci na jednom stroju ali ne na drugom.

Stvarni revizijski nalaz

Jedna banka testirala je svoje samo-hostirano postavljanje Presidia.

Testno postavljanje: Presidio s spaCy 3.4.4 na staging klasteru. Zivo postavljanje: Presidio s spaCy 3.5.1 na produkcijskom klasteru.

Pokrenuli su isti skup dokumenata kroz oba. Zatim su usporedili rezultate. Nalaz: 3% dokumenata imalo je razlicite rezultate uklanjanja PII-a. Neka su se imena hvatala u stagingu ali ne u produkciji. Neka su imala razlicite otkrivene raspone teksta.

Revizijski nalaz bio je izravan: "Tvrtka ne moze pokazati dosljednu primjenu tehnickih mjera uklanjanja PII-a zbog razlika u izlazu detekcije specificnih za postavljanje."

GDPR clanak 32 zahtijeva odgovarajuce tehnicke mjere. EDPB pravila o uklanjanju PII-a zahtijevaju dosljednost i ponovljivost. Stopa od 3% kroz 100.000 dokumenata mjesecno znaci 3.000 dokumenata s nedosljednim rezultatima svaki mjesec. Neki su lazni negativni. PII koji bi staging uhvatio ostaje u zivom izlazu. To je neuspjeh uskladivanja.

Banka je zatim presla na upravljani SaaS. Revizijski nalaz je zatvoren. Pogledajte nasu stranicu sigurnosti i uskladivanja za informacije o tome kako upravljana postavljanja rjesavaju ovo.

Zasto su upravljani servisi drugaciji

Upravljani servis pokrece jednu verziju motora. Svi korisnici pokrecu istu verziju u isto vrijeme. Azuriranja modela primjenjuju se s jednog mjesta. Konfiguracija se takodje upravlja s jednog mjesta, s potpunim zapisom promjena. Hardver korisnika ne utjece na rezultate.

Dakle, isti dokument obrадjen danas daje isti rezultat slijedeceg mjeseca. Ako se verzija motora promijenila, ta promjena je zapisana i verzionirana.

Razlika u revizijskom tragu je kljucna.

Revizijski trag samo-hostiranja:

  • "Koristio Presidio 2.2.35 sa spaCy en_core_web_lg 3.5.1 na Ubuntu 22.04."
  • Je li ovo bila ista verzija kao u stagingu? Nepoznato.
  • Je li se model promijenio od trenutka obrade ovog dokumenta? Nepoznato osim ako se pratilo.
  • Je li prag ocjene isti kao u testiranju? Ovisi o upravljanju konfiguracijom.

Revizijski trag upravljanog servisa:

  • "Koristio anonym.legal API, verzija motora 4.22.1, u 2025-03-15T14:22:31Z."
  • Ista verzija za sve korisnike? Da.
  • Je li se promijenila? Verzije motora su zakinute. Verzija 4.22.1 uvijek znaci isti motor.
  • Je li konfiguracija ponovljiva? Da. ID predloska je zabiljezan. Konfiguracija te verzije moze se dohvatiti.

Upravljani trag je jasan. Samo-hostirani trag zahtijeva pazljivo pracenje koje vecina timova preskace.

Kako poboljsati dosljednost samo-hostiranja

Ako je samo-hostiranje obavezno, mozete smanjiti odstupanje s cetiri koraka.

Prvo, zakinite verzije modela. Zakljucajte tocne verzije modela u sve datoteke implementacije. Blokirajte automatska azuriranja. Pratite verzije u kontroli izvora.

Zatim, zamrznite slike kontejnera. Izgradite Docker slike s tocnim verzijama modela ukljucenih. Oznacite svaku sliku s verzijom modela, verzijom Presidia i datumom. Ne azurirajte bazne slike bez prethodnog testiranja.

Takodje, drzite konfiguraciju u kodu. Pohranite sve Presidio postavke u datoteke pracene u kontroli verzija. To ukljucuje detektore, pragove ocjena i aktivne jezike. Implementirajte konfiguraciju s aplikacijom.

Konacno, testirajte kroz postavljanja. Nakon svakog azuriranja, pokrenite fiksirani skup testnih dokumenata kroz novo postavljanje. Usporedite rezultate s pohranom referencom. Automatizirajte ovu provjeru. Pogledajte FAQ za cesta pitanja o automatiziranom PII regresijskom testiranju.

Ovi koraci pomazu. Ali takodje dodaju posao. Upravljani servis daje istu dosljednost bez dodatnog napora.

Zakljucak

Dosljedno uklanjanje PII-a ne pojavljuje se na listama znacajki. Ali postaje kriticno kada revizori traze dokaze.

Bez aktivne brige, samo-hostirani PII alati odstupaju. Promjene verzija dodaju tihe praznine. Te praznine pojavljuju se kao revizijski nalazi.

Upravljani servisi pruzaju dosljednost zadano. Motor radi s jednog mjesta. Postavljanja korisnika ne utjecu na rezultate. Za timove usmjerene na uskladivanje, ovo je izravan prednost.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.