By · Last updated 2026-06-05

Atpakaļ uz BloguGDPR un Atbilstība

Pašhostēti PII rīki neiztur atbilstības auditus

spaCy 3.4.4 rada atšķirīgus NER rezultātus nekā spaCy 3.5.1. Finanšu pakalpojumu uzņēmums atklāj, ka 3% dokumentu ir nekonsekventi PII noņemšanas rezultāti starp vidi.

June 5, 20266 min lasīšanai
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Kāpēc pašhostēti PII rīki neiztur atbilstības auditus

GDPR prasa pierādījumus. Jums jāparāda, ka PII noņemšana tika veikta tādā pašā veidā katru reizi. DPA auditori to pārbauda. Viņi vēlas redzēt skaidru, konsekventu metodi izmantotu visos datos.

Pašhostētajam Presidio ir reāla problēma šeit. Tā nav konfigurācijas problēma. Tā ir pašhostētu NLP rīku pamatierobežojums.

Kas ir vides novirze?

Pašhostētais Presidio darbojas izstrādē, uzstādīšanas vidē un ražošanā. Katrs no tiem var uzvesties citādi. Tāpēc tas pats ieguldījums var dot atšķirīgus rezultātus katrā no tiem.

To sauc par vides novirzi. Tai ir četri galvenie cēloņi.

Modeļa versijas novirze

spaCy modeļi ir versijās. Modelis en_core_web_lg 3.4.4 un en_core_web_lg 3.5.1 tika apmācīti uz dažādiem datiem. Viņiem ir arī atšķirīgi dizaini. Tāpēc tas pats dokuments var dot atšķirīgus NER rezultātus ar katru versiju.

Izplatīta iestatīšana izskatās šādi:

  • Izstrāde: en_core_web_lg 3.4.4 — instalēts projekta sākumā
  • Uzstādīšanas vide: en_core_web_lg 3.5.0 — atjaunināts rutīnas darba laikā
  • Ražošana: en_core_web_lg 3.5.1 — atjaunināts drošības labojuma laikā

Tā ir trīs iestatīšanas. Trīs modeļu versijas. Trīs atšķirīgi noteikšanas rezultāti. Testi iztur uzstādīšanas vidē. Taču ražošana darbojas ar atšķirīgu modeli. Tāpēc plaisa paliek slēpta.

Atkarību versijas novirze

spaCy 3.4.x un 3.5.x atšķiras teikumu dalīšanā. Šī izmaiņa ietekmē to, kā vārdi tiek atrasti netālu no teikumu robežām. Šīs izmaiņas ir spaCy izlaidumu piezīmēs. Taču lielākā daļa komandu tās nepārbauda PII ietekmes kontekstā.

Konfigurācijas novirze

Punktu sliekšņi, kas iestatīti izstrādē, var nenokļūt ražošanā. Pielāgotie vārdu saraksti var arī atšķirties starp iestatīšanām. Šīs plaisas ir izplatītas. Tās reti tiek izsektas. Skatiet mūsu GDPR atbilstības rokasgrāmatu, lai uzzinātu, ko auditori meklē.

Aparatūras atšķirības

Matemātika NLP modeļos nav identiska visos CPU un GPU. Patēriņa klēpjdators un serveris var dot nedaudz atšķirīgus punktu rezultātus. Tāpēc daži vārdi var tikt atrasti uz vienas iekārtas, bet ne uz citas.

Reāls audita atradums

Banka testēja savu pašhostēto Presidio iestatīšanu.

Testa iestatīšana: Presidio ar spaCy 3.4.4 uz uzstādīšanas klastera. Aktīvā iestatīšana: Presidio ar spaCy 3.5.1 uz ražošanas klastera.

Viņi palaida to pašu dokumentu kopu caur abiem. Tad salīdzināja rezultātus. Atradums: 3% dokumentu bija atšķirīgi PII noņemšanas rezultāti. Daži vārdi tika atklāti uzstādīšanas vidē, bet ne ražošanā. Dažiem bija atšķirīgi noteikto teksta intervāli.

Audita atradums bija tieši: "Uzņēmums nevar demonstrēt konsekventu tehnisko PII noņemšanas pasākumu izmantošanu, jo iestatīšanai raksturīgās atšķirības noteikšanas izvadē."

GDPR 32. pants prasa atbilstošus tehniskos pasākumus. EDPB noteikumi par PII noņemšanu prasa konsekvenci un atkārtojamību. 3% īpatsvars pār 100 000 dokumentiem mēnesī nozīmē 3 000 dokumentu ar nekonsekventi rezultātiem katru mēnesi. Daži ir viltus negatīvie rezultāti. PII, kuru uzstādīšanas vide atklātu, paliek aktīvajā izvadē. Tā ir atbilstības neveiksme.

Banka pēc tam pārgāja uz pārvaldītu SaaS. Audita atradums tika slēgts. Skatiet mūsu drošības un atbilstības lapu, lai uzzinātu, kā pārvaldītas iestatīšanas to apstrādā.

Kāpēc pārvaldītie pakalpojumi ir atšķirīgi

Pārvaldīts pakalpojums darbojas ar vienu dzinēja versiju. Visi lietotāji vienlaikus darbojas ar to pašu versiju. Modeļu atjauninājumi tiek piemēroti no vienas vietas. Konfigurācija arī tiek pārvaldīta no vienas vietas, ar pilnu izmaiņu žurnālu. Lietotāja aparatūra neietekmē rezultātus.

Tāpēc tas pats dokuments, kas apstrādāts šodien, nākamajā mēnesī dod to pašu rezultātu. Ja dzinēja versija mainījās, šī izmaiņa ir žurnālā un versijā.

Audita pēdas atšķirība ir galvenā.

Pašhostēta audita pēda:

  • "Izmantots Presidio 2.2.35 ar spaCy en_core_web_lg 3.5.1 uz Ubuntu 22.04."
  • Vai tā bija tā pati versija kā uzstādīšanas vidē? Nezināms.
  • Vai modelis ir mainījies kopš šī dokumenta apstrādes? Nezināms, ja vien tas netika izsekots.
  • Vai punktu slieksnis ir tāds pats kā testēšanā? Tas ir atkarīgs no konfigurācijas pārvaldības.

Pārvaldīta pakalpojuma audita pēda:

  • "Izmantots anonym.legal API, dzinēja versija 4.22.1, 2025-03-15T14:22:31Z."
  • Tā pati versija visiem lietotājiem? Jā.
  • Vai tā ir mainījusies? Dzinēja versijas ir fiksētas. Versija 4.22.1 vienmēr nozīmē to pašu dzinēju.
  • Vai konfigurācija ir atkārtojama? Jā. Iepriekšiestatījuma ID ir žurnālā. Konfigurācija pie šīs versijas var tikt izgūta.

Pārvaldītā pēda ir skaidra. Pašhostētā pēda prasa rūpīgu izsekošanu, ko lielākā daļa komandu izlaiž.

Kā uzlabot pašhostēto konsekvenci

Ja pašhostēšana ir nepieciešama, varat samazināt novirzi ar četriem soļiem.

Pirmkārt, fiksējiet modeļu versijas. Bloķējiet precīzas modeļu versijas visos izvietošanas failos. Bloķējiet automātiskos atjauninājumus. Izsekojiet versijas avota kontrolē.

Tālāk, iesaldējiet konteineru attēlus. Veidojiet Docker attēlus ar precīzām modeļu versijām iebūvētām. Atzīmējiet katru attēlu ar modeļa versiju, Presidio versiju un datumu. Neatjauniniet bāzes attēlus bez iepriekšējas testēšanas.

Arī, glabājiet konfigurāciju kodā. Glabājiet visus Presidio iestatījumus failos, kas izsekoti versiju kontrolē. Tas ietver detektorus, punktu sliekšņus un aktīvās valodas. Izvietojiet konfigurāciju kopā ar lietotni.

Visbeidzot, testējiet visās iestatīšanās. Pēc jebkura atjauninājuma palaidiet fiksētu testdokumentu kopu caur jauno iestatīšanu. Salīdziniet rezultātus ar saglabātu atsauci. Automatizējiet šo pārbaudi. Skatiet BUJ par izplatītiem jautājumiem saistībā ar automātisko PII regresijas testēšanu.

Šie soļi palīdz. Taču tie arī pievieno darbu. Pārvaldīts pakalpojums sniedz to pašu konsekvenci bez papildu piepūles.

Galvenā atziņa

Konsekventa PII noņemšana neparādās produktu lapās. Taču tā kļūst kritiska, kad auditori prasa pierādījumus.

Bez aktīvas rūpes pašhostēti PII rīki novirzās. Versiju izmaiņas pievieno klusas plaisas. Šīs plaisas parādās kā audita atradumi.

Pārvaldītie pakalpojumi pēc noklusējuma nodrošina konsekvenci. Dzinējs darbojas no vienas vietas. Lietotāja iestatīšanas neietekmē rezultātus. Atbilstībai orientētām komandām tā ir tieša priekšrocība.

Avoti

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.