By · Last updated 2026-06-05

Späť na blogGDPR a Dodržiavanie

Vlastnohodené PII nástroje zlyhaváajú pri auditoch súladu

spaCy 3.4.4 produkuje odlišné vysledky NER ako spaCy 3.5.1. Financná institúcia zistí, ze 3 % dokumentov boli rozdielne anonymizované v stagingu vs. produkcii.

June 5, 20266 min čítania
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Preco vlastnohodené nástroje PII zlyhávajú pri auditoch súladu

GDPR vyzaduje dôkaz. Musíte preukázat, ze odstranenie PII bolo vykonané rovnakym spôsobom zakazdym. Audítori DPA to kontrolujú. Chcú vidiet jasnú, konzistentnú metódu pouÎzitú napriec všetkymi dátami.

Vlastnohodené Presidio má tu skutocny problém. Nie je to problém konfigurácie. Je to základné obmedzenie vlastnohostených nástrojov NLP.

Co je drift prostredia?

Vlastnohodené Presidio beží vo vývoji, stagingu a produkcii. Kazdy z nich sa môze správat inak. Takze rovnaky vstup môze produkovat rozlicné výsledky v kazdom z nich.

Toto sa nazýva drift prostredia. Má štyri hlavné prícihy.

Drift verzií modelu

Modely spaCy sú verzované. Modely en_core_web_lg 3.4.4 a en_core_web_lg 3.5.1 boli trénované na odlišnych dátach. Pouÿívajú aj odlišné architektúry. Takze ten isty dokument môze dat odlišné vysledky NER s kazodu verziou.

Bezná konfigurácia vyzerá takto:

  • Vývoj: en_core_web_lg 3.4.4 — inštalovaná na zaciatku projektu
  • Staging: en_core_web_lg 3.5.0 — aktualizovaná pocas rutinnej práce
  • Produkcia: en_core_web_lg 3.5.1 — aktualizovaná pocas bezpecnostnej záplaty

To sú tri nastavenia. Tri verzie modelu. Tri rozlicné výsledky detekcie. Testy prechádzajú v stagingu. Ale produkcia beží na odlišnom modeli. Takze medzera zostáva skrytá.

Drift verzií závislostí

spaCy 3.4.x a 3.5.x sa líšia v tom, ako delia vety. Táto zmena ovplyvnuje to, ako su mená nájdené pri zalomení viet. Tieto zmeny su v poznámkach k vydaniu spaCy. Ale vacsina tímov ich nekontroluje z hladiska dopadu na PII.

Drift konfigurácie

Prahy skóre nastavené vo vývoji nemusia sa preniest do produkcie. Vlastné zoznamy slov sa taktiez môzu líšit medzi nastaveniami. Tieto medzery su bezné. Zriedkakedy sú sledované. Pozrite si náš pruvodca súladom GDPR ohladom toho, co audítori hladajú.

Rozdiely hardvéru

Matematika v modeloch NLP nie je identická napriec všetkymi CPU a GPU. Spotrebitelsky laptop a server môzu dat mierne odlišné výsledky skóre. Takze niektoré mená môzu byt nájdené na jednom stroji, ale nie na druhom.

Skutocné auditné zistenie

Banka otestovala svoje vlastnohodené nastavenie Presidio.

Testovacie nastavenie: Presidio so spaCy 3.4.4 na stagingom clustri. Živé nastavenie: Presidio so spaCy 3.5.1 na produkcionom clustri.

Spustili rovnakú sadu dokumentov cez obe. Potom porovnali výsledky. Zistenie: 3 % dokumentov malo odlišné výsledky odstranenia PII. Niektoré mená boli zachytené v stagingu, ale nie v produkcii. Niektoré mali odlišné detegované textové úseky.

Audítne zistenie bolo priame: "Firma nemôze preukázat konzistentné pouÎzitie technickych opatrení odstranenia PII z dôvodu rozdielov vo výstupe detekcie specifickych pre nastavenie."

Clanok 32 GDPR vyzaduje primerané technické opatrenia. Pravidlá EDPB o odstranení PII vyzadujú konzistentnost a opakovatelnost. Miera 3 % napriec 100 000 dokumentmi mesacne znamená 3 000 dokumentov s nekonzistentnymi výsledkami kazdy mesiac. Niektoré su false negativy. PII, ktore by staging zachytil, zostáva v ziVom výstupe. To je zlyhanie súladu.

Banka prešla na spravovany SaaS. Audítne zistenie bolo uzavreté. Pozrite si našu stránku bezpecnosti a súladu, ako spravované nastavenia toto riešia.

Preco su spravované sluzby iné

Spravovaná sluzba prevadzKuje jednu verziu motora. Všetci pouzívatelia bezia na rovnakej verzii súcasne. Aktualizácie modelu su aplikované z jedného miesta. Konfigurácia je taktiez spravovaná z jedného miesta s úplnym protokolom zmien. Hardvér pouzívatela neovplyvnuje výsledky.

Takze ten isty dokument spracovany dnes dá rovnaky výsledok budúci mesiac. Ak sa verzia motora zmenila, táto zmena je zalogovaná a verzovaná.

Klúcový rozdiel je v audit traile.

Audit trail pri vlastnom hosťovaní:

  • "PouÎzilo sa Presidio 2.2.35 so spaCy en_core_web_lg 3.5.1 na Ubuntu 22.04."
  • Bola to rovnaká verzia ako v stagingu? Neznáme.
  • Zmenil sa model od spracovania tohto dokumentu? Neznáme, pokial' sa to nesleduje.
  • Je prah skóre rovnaky ako pri testovaní? Závisí od správy konfigurácie.

Audit trail spravovanej sluzby:

  • "PouÎzilo sa API anonym.legal, verzia motora 4.22.1, dna 2025-03-15T14:22:31Z."
  • Rovnaká verzia pre všetkych pouzívatelov? Áno.
  • Zmenila sa? Verzie motora su pinnuté. Verzia 4.22.1 vzdy znamená rovnaky motor.
  • Je konfigurácia opakovatelná? Áno. ID prednastavenia je zalogované. Konfigurácia pri danej verzii môze byt nacítaná.

Spravovany trail je jasny. Vlastnohodeny trail potrebuje starostlivé sledovanie, ktore vacsina tímov preskakuje.

Ako zlepšit konzistentnost vlastného hosťovania

Ak je vlastné hosťovanie poÎziadavkou, môzete znízit drift štyrmi krokmi.

Najprv pinnite verzie modelu. Zamknite presné verzie modelu vo všetkych súboroch nasadenia. Blokujte automatické aktualizácie. Sledujte verzie v zdrojovom kóde.

Dálej zmrazte obrazy kontajnerov. Vytvárajte obrazy Docker s presnymi verziami modelu zabudovanymi. Oznacte kazdy obraz verziou modelu, verziou Presidio a dátumom. Neaktualizujte základné obrazy bez predchádzajúceho testovania.

Taktiez udrzujte konfiguráciu v kóde. Ukladajte všetky nastavenia Presidio v súboroch sledovaných v zdrojovom kóde. To zahŕna detektory, prahy skóre a aktívne jazyky. Nasadzujte konfiguráciu spolu s aplikáciou.

Nakoniec testujte napriec nastaveniami. Po akejkolvek aktualizácii spustite pevnú sadu testovacích dokumentov cez nové nastavenie. Porovnajte výsledky s uchovanou referenciou. Automatizujte túto kontrolu. Pozrite si FAQ pre casté otázky o automatickom testovaní regresie PII.

Tieto kroky pomáhajú. Ale taktiez pridávajú prácu. Spravovaná sluzba poskytuje rovnakú konzistentnost bez dodatocného úsilia.

Záver

Konzistentné odstranenie PII sa neobjavuje v datalistoch produktov. Ale stáva sa kricickym, ked audítori pozadujú dôkaz.

Bez aktívnej starostlivosti vlastnohodené nástroje PII driftujú. Zmeny verzií pridávajú tiché medzery. Tieto medzery sa objavujú ako audítne zistenia.

Spravované sluzby poskytujú konzistentnost predvolene. Motor beží z jedného miesta. Nastavenia pouzívatelov neovplyvnujú výsledky. Pre tímy zamerané na súlad je toto priamou vyhoadou.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.