By · Last updated 2026-06-05

Itzuli BlogeraGDPR & Betetze

Autobertako PIIak betetze-auditoretzetan huts egiten du

spaCy 3.4.4-k NER emaitza ezberdinak sortzen ditu spaCy 3.5.1-ek baino. Finantza-zerbitzu enpresak dokumentuen %3 stage-n eta produkzioan modu ezberdinean anonimizatutako aurkitu du.

June 5, 20266 min irakurri
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Zergatik Autobertako PII Tresnek Betetze-Auditoretzetan Huts Egiten Duten

GDPRek froga eskatzen du. Erakutsi behar duzu PII-ren ezabapena beti modu berean egin dela. DPA auditoretzek hori egiaztatzen dute. Datu guztien artean erabilitako metodo argi eta koherente bat ikusi nahi dute.

Autobertako Presidio-k arazo real bat du hemen. Konfigurazio-arazo bat ez da. Autobertako NLP tresnen muga nagusi bat da.

Zer Da Ingurune-Desbiderapena?

Autobertako Presidio garapenean, stage-n eta produkzioan exekutatzen da. Hauetako bakoitzak modu ezberdinean funtzionatu dezake. Beraz, sarrera berdinak emaitza ezberdinak sor ditzake bakoitzean.

Honi ingurune-desbiderapena esaten zaio. Lau arrazoi nagusi ditu.

Eredu-Bertsio Desbiderapena

spaCy ereduak bertsio-aniztunak dira. `en_core_web_lg 3.4.4` eta `en_core_web_lg 3.5.1` ereduak datu ezberdinetan entrenatu ziren. Diseinu ezberdinak ere erabiltzen dituzte. Beraz, dokumentu berdinak NER emaitza ezberdinak sor ditzake bertsio bakoitzarekin.

Ohiko konfigurazio hau da:

  • Garapena: `en_core_web_lg 3.4.4` - proiektua hasi zenean instalatua
  • Stage: `en_core_web_lg 3.5.0` - ohiko lanaren bitartean eguneratua
  • Produkzioa: `en_core_web_lg 3.5.1` - segurtasun-adabaki baten bitartean eguneratua

Hiru konfigurazio. Hiru eredu-bertsio. Hiru detekzio-emaitza ezberdin. Probak stage-n gainditzen dituzte. Baina produkzioak eredu ezberdin bat exekutatzen du. Beraz, aldea ezkutuan geratzen da.

Mendekotasun-Bertsio Desbiderapena

spaCy 3.4.x eta 3.5.x-ek esaldiak nola zatitzen dituzten ezberdina da. Aldaketa horrek izen-detekzioan eragiten du esaldi-hautuetan. Aldaketa hauek spaCy argitaratze-oharretan daude. Baina talde gehienek ez dituzte PII-eraginaren ikuspegitik egiaztatzen.

Konfigurazio-Desbiderapena

Garapenean ezarritako puntuazio-atalaseak baliteke produkziora ez igaro. Hitz-zerrendak pertsonalizatuak ere konfigurazio-artean alda daitezke. Hutsune hauek ohikoak dira. Gutxitan jarraitzen dira. Ikusi gure GDPR betetze-gida auditoretzek zer bilatzen duten jakiteko.

Hardware-Ezberdintasunak

NLP ereduetan matematika ez da identikoa CPU eta GPU guztien artean. Ordenagailu eramangarri batek eta zerbitzari batek emaitza puntuazio pixka bat ezberdinak eman ditzakete. Beraz, zenbait izen makinan aurkitu daitezke baina bestean ez.

Benetako Auditoria-Aurkikuntza

Banku batek bere autobertako Presidio konfigurazioa probatu zuen.

Proba-konfigurazioa: Presidio, spaCy 3.4.4rekin stage klusterrean. Biziko konfigurazioa: Presidio, spaCy 3.5.1rekin produkzio klusterrean.

Dokumentu-multzo bera bi bideetatik exekutatu zuten. Ondoren emaitzak konparatu zituzten. Aurkikuntza: dokumentuen %3 PII-ezabatze emaitza ezberdinak zituen. Zenbait izen stage-n harrapatu ziren baina ez produkzioan. Batzuek hautemandako testu-tarte ezberdinak zituzten.

Auditoriaren aurkikuntza zuzena zen: "Enpresak ezin du erakutsi neurri teknikoen PII-ezabatzearen erabilera koherentea, konfigurazio-espezifikoen detekzio-ekoizpenean ezberdintasunak direla eta."

GDPR 32. artikuluak neurri tekniko egokiak eskatzen ditu. PII-ezabatzeari buruzko EDPB arauak koherentzia eta errepikagarritasuna eskatzen dituzte. Hilero 100.000 dokumentuko %3ko tasak hilero 3.000 dokumentu emaitza inkoherenteekin esan nahi du. Batzuk faltsu-negatiboak dira. Stage-k harrapatuko lituen PII biziko irteeran geratzen da. Hori betetze-hutsa da.

Bankua ondoren kudeatu SaaS-era mugitu zen. Auditoriaren aurkikuntza itxi zen. Ikusi gure segurtasun eta betetze orria kudeatu konfigurazioek hori nola kudeatzen duten jakiteko.

Zergatik Ezberdinak Diren Kudeatu Zerbitzuak

Kudeatu zerbitzu batek motor-bertsio bakarra exekutatzen du. Erabiltzaile guztiek aldi berean bertsio bera exekutatzen dute. Eredu-eguneraketak leku batetik aplikatzen dira. Konfigurazioa ere leku batetik kudeatzen da, aldaketa-erregistro osoaren arabera. Erabiltzailearen hardwareak ez du emaitzetan eragiten.

Beraz, gaur prozesatutako dokumentu berdinak hurrengo hilean emaitza bera ematen du. Motor-bertsioa aldatu bada, aldaketa hori erregistratua eta bersionatua dago.

Auditoria-ibilbidearen ezberdintasuna giltzarri da.

Autobertako auditoria-ibilbidea:

  • "Presidio 2.2.35 erabili, spaCy `en_core_web_lg 3.5.1`rekin Ubuntu 22.04-n."
  • Hau stage-ko bertsio bera al zen? Ezezaguna.
  • Dokumentu hau prozesatu zenetik eredua aldatu al da? Ezezaguna, jarraitu ezean.
  • Puntuazio-atalasea testuan berdintsua al da? Konfigurazio-kudeaketaren arabera dago.

Kudeatu zerbitzu-ibilbidea:

  • "anonym.legal APIa erabili, motor bertsioa 4.22.1, 2025-03-15T14:22:31Z-n."
  • Bertsio bera erabiltzaile guztientzat? Bai.
  • Aldatu al da? Motor-bertsioak geldiarazita daude. 4.22.1 bertsioak beti motor bera esan nahi du.
  • Konfigurazioa errepikagarria al da? Bai. Aurrezarpenaren IDa erregistratuta dago. Bertsio horretako konfigurazioa berreskuratu daiteke.

Kudeatu ibilbidea argia da. Autobertakoak arreta handiz jarraitzea behar du talde gehienek saltatzen dutena.

Autobertako Koherentzia Nola Hobetu

Autobertakoa beharrezkoa bada, desbiderapena lau urratsez murriztu daiteke.

Lehenenik, eredu-bertsioak geldiarazi. Blokatu bertsioak hedapen-fitxategi guztietan. Eguneraketa automatikoak blokeatu. Bertsioak iturburu-kontrolan jarraitu.

Ondoren, edukiontzi-irudiak izoztu. Docker irudiak eraiki bertan erredututako eredu-bertsioekin. Etiketa bakoitza eredu-bertsioaren, Presidio-bertsioaren eta data batekin etiketatu. Ez eguneratu oinarri-irudiak probatu gabe.

Gainera, konfigurazioa kodean gorde. Presidio-ezarpen guztiak iturburu-kontrolean jarraitutako fitxategietan gorde. Horrek detektagailu guztiak, puntuazio-atalaseak eta aktibatutako hizkuntzak hartzen ditu. Konfigurazioa aplikazioarekin hedatu.

Azkenik, konfigurazio artean probatu. Edozein eguneraketaren ondoren, proba-dokumentu multzo finko bat konfigurazio berrira exekutatu. Emaitzak gordetako erreferentziarekin konparatu. Egiaztapen hau automatizatu. Ikusi FAQ PII erregresio-proba automatizatuari buruzko ohiko galderetarako.

Urrats hauek laguntzen dute. Baina lan gehiago ere gehitzen dute. Kudeatu zerbitzu batek koherentzia bera ematen du lan gehigarri hori gabe.

Ondorioa

PII-ezabatze koherentea ez da produktu-fitxetan agertzen. Baina auditoretzek frogak eskatzen dituztenean garrantzizkoa bihurtzen da.

Arreta aktiborik gabe, autobertako PII tresnak desbideratzen dira. Bertsio-aldaketak ixileko hutsuneak sortzen dituzte. Hutsune horiek auditoria-aurkikuntza gisa agertzen dira.

Kudeatu zerbitzuek lehenetsita koherentzia eskaintzen dute. Motorra leku batetik exekutatzen da. Erabiltzaileen konfigurazioek ez dute emaitzetan eragiten. Betetze-zentratutako taldeentzat, hau abantaila zuzena da.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.