anonym.legal

By · Last updated 2026-06-05

Terug na BlogGDPR & Nakoming

Selfgasheerde PII Misluk Nakomingsoudits

spaCy 3.4.4 lewer verskillende NER-resultate as spaCy 3.5.1. 'n Finansiole dienstemaatskappy ontdek 3% van dokumente is anders geanonimiseer in stasering vs. produksie.

June 5, 20266 min lees
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Hoekom Selfgasheerde PII-Nutsmiddels Nakomingsoudits Misluk

GDPR vereis bewys. U moet aantoon dat PII-verwydering elke keer op dieselfde manier gedoen is. DPA-ouditeure kontroleer dit. Hulle wil 'n duidelike, konsekwente metode sien wat oor alle data gebruik word.

Selfgasheerde Presidio het 'n werklike probleem hier. Dit is nie 'n konfigurasie-kwessie nie. Dit is 'n kernbeperking van selfgasheerde NLP-nutsmiddels.

Wat Is Omgewingsverskuiwing?

Selfgasheerde Presidio loop in ontwikkeling, stasering en produksie. Elk van hierdie kan anders optree. So dieselfde invoer kan verskillende resultate in elkeen lewer.

Dit word omgewingsverskuiwing genoem. Dit het vier hoofoorsake.

Modelweergawe-Verskuiwing

spaCy-modelle is weergaaf-nommerd. Model en_core_web_lg 3.4.4 en en_core_web_lg 3.5.1 is op verskillende data opgelei. Hulle gebruik ook verskillende ontwerpe. So dieselfde dokument kan verskillende NER-resultate met elke weergawe gee.

'n Gewone opstelling lyk so:

  • Ontwikkeling: en_core_web_lg 3.4.4 -- tydens projekstart geinstalleer
  • Stasering: en_core_web_lg 3.5.0 -- tydens roetinewerk opgedateer
  • Produksie: en_core_web_lg 3.5.1 -- tydens 'n sekuriteitsreplossing opgedateer

Dit is drie opstelling. Drie modelweergawes. Drie verskillende opsporingsresultate. Toetse slaag in stasering. Maar produksie loop 'n ander model. So die gaping bly versteek.

Afhanklikheidsweergawe-Verskuiwing

spaCy 3.4.x en 3.5.x verskil in hoe hulle sinne opdeel. Hierdie verandering beinvloed hoe name naby sinbreuke gevind word. Hierdie veranderinge is in die spaCy-vrylatingnotas. Maar die meeste spanne kontroleer hulle nie vir PII-impak nie.

Konfigurasieverskuiwing

Punteldrempels wat in ontwikkeling gestel is, mag nie na produksie oordra nie. Pasgemaakte woordlyste kan ook tussen opstelling verskil. Hierdie gapings is algemeen. Hulle word selde nagesien. Sien ons GDPR-nakomingsgids vir wat ouditeure soek.

Hardeware-Verskille

Wiskunde in NLP-modelle is nie identies oor alle SVE's en GPV's nie. 'n Verbruikerslaptop en 'n bediener kan effens verskillende puntuitslae gee. So sommige name word dalk op een masjien gevind maar nie op 'n ander nie.

'n Werklike Ouditbevinding

'n Bank het hul selfgasheerde Presidio-opstelling getoets.

Toetsopstelling: Presidio met spaCy 3.4.4 op die staseringdruif. Lewende opstelling: Presidio met spaCy 3.5.1 op die produksiedruif.

Hulle het dieselfde stel dokumente deur beide gelaat. Toe het hulle die resultate vergelyk. Die bevinding: 3% van dokumente het verskillende PII-verwyderingsresultate gehad. Sommige name is in stasering gevang maar nie in produksie nie. Sommige het verskillende gedetekteerde tekspan gehad.

Die ouditbevinding was direk: "Die firma kan nie konsekwente gebruik van tegniese PII-verwyderingsmaatreels aantoon nie weens opstelling-spesifieke verskille in opsporingsuitvoer."

GDPR Artikel 32 vereis behoorlike tegniese maatreels. EDPB-reels oor PII-verwydering vereis konsekwentheid en herhaalbaarheid. 'n 3%-tempo oor 100,000 dokumente per maand beteken 3,000 dokumente met inkonsekwente resultate elke maand. Sommige is vals negatiefs. PII wat stasering sou vang, bly in die lewende uitvoer. Dit is 'n nakomingsmislukking.

Die bank het toe na bestuurde SaaS oorgeskakel. Die ouditbevinding is gesluit. Sien ons sekuriteits- en nakomingblad vir hoe bestuurde opstelling dit hanteer.

Hoekom Bestuurde Dienste Verskillend Is

'n Bestuurde diens loop een enjinweergawe. Alle gebruikers loop dieselfde weergawe op dieselfde tyd. Modelopdaterings word van een plek toegepas. Konfigurasie word ook van een plek bestuur, met 'n volledige veranderingslog. Gebruikerhardeware beinvloed nie die resultate nie.

So dieselfde dokument wat vandag verwerk word, gee volgende maand dieselfde resultaat. As die enjinweergawe verander het, is hierdie verandering geregistreer en weergaaf-nommerd.

Die ouditspoorverskil is die sleutel.

Selfgasheerde ouditspoor:

  • "Presidio 2.2.35 gebruik met spaCy en_core_web_lg 3.5.1 op Ubuntu 22.04."
  • Was dit dieselfde weergawe as in stasering? Onbekend.
  • Het die model verander sedert hierdie dokument verwerk is? Onbekend tensy nagespoor.
  • Is die punteldrempel dieselfde as in toetsing? Dit hang af van konfigurasiebestuur.

Bestuurde diensouditspoor:

  • "anonym.legal API gebruik, enjinweergawe 4.22.1, op 2025-03-15T14:22:31Z."
  • Dieselfde weergawe vir alle gebruikers? Ja.
  • Het dit verander? Enjinweergawes is vasgesteek. Weergawe 4.22.1 beteken altyd dieselfde enjin.
  • Is die konfigurasie herhaalbaar? Ja. Voorinstelling-ID is geregistreer. Konfigurasie by daardie weergawe kan herwin word.

Die bestuurde spoor is duidelik. Die selfgasheerde spoor benodig noukeurige opsporing wat die meeste spanne oorslaan.

Hoe Om Selfgasheerde Konsekwentheid te Verbeter

As selfgastheid vereis word, kan u verskuiwing met vier stappe verminder.

Eerstens, pen modelweergawes vas. Sluit presiese modelweergawes in alle ontplooilere. Blokkeer outo-opdaterings. Spoor weergawes in bronkode-beheer na.

Vervolgens, vries houerbeelde. Bou Docker-beelde met presiese modelweergawes ingebak. Merk elke beeld met die modelweergawe, Presidio-weergawe en datum. Moenie basisbeelde opdateer sonder om eers te toets nie.

Behou ook konfigurasie in kode. Berg alle Presidio-instellings in lere wat in weergawe-beheer nagesien word. Dit sluit opsporingstoestelle, punteldrempels en aktiewe tale in. Ontplooi konfigurasie saam met die toepassing.

Toets laastens oor opstelling. Na enige opdatering, loop 'n vaste toetsdokumentstel deur die nuwe opstelling. Vergelyk resultate met 'n geboekte verwysing. Outomatiseer hierdie kontrole. Sien die Gereelde Vrae vir algemene vrae oor geoutomatiseerde PII-regressietoetsing.

Hierdie stappe help. Maar hulle voeg ook werk by. 'n Bestuurde diens gee dieselfde konsekwentheid sonder die ekstra inspanning.

Die Slotsom

Konsekwente PII-verwydering verskyn nie op produkblaaie nie. Maar dit word krities wanneer ouditeure vir bewyse vra.

Sonder aktiewe sorg, verskuif selfgasheerde PII-nutsmiddels. Weergawe-veranderinge voeg stille gapings by. Hierdie gapings verskyn as ouditbevindinge.

Bestuurde dienste bied konsekwentheid by verstek. Die enjin loop van een plek. Gebruikersopstelling beinvloed nie resultate nie. Vir nakoming-gefokusde spanne is dit 'n direkte voordeel.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.