By · Last updated 2026-06-05

Zpět na blogGDPR a shoda

Fragmentace nástrojů PII způsobuje selhání při auditech souladu

Čtyři různé nástroje pro čtyři různé pracovní postupy znamenají čtyři různé sady pokrytí entit a čtyři různé auditní stopy.

June 5, 20267 min čtení
compliance audittool fragmentationISO 27001GDPR controlsPII tools

Co auditoři vidí, když se ptají na kontroly PII

Během auditu dozorového orgánu GDPR nebo posouzení ISO 27001 patří k standardním otázkám: „Jaké technické kontroly máte pro anonymizaci PII?”

Auditor hledá čistou a obhajitelnou odpověď: konkrétní kontrolu, konzistentně aplikovanou, s dokumentací o tom, jak funguje, a důkazem o její účinnosti.

Odpověď, která vytváří riziko souladu: „Používáme různé nástroje podle kontextu. Pro procházení webu rozšíření Chrome, pro dokumenty Word makro, pro hromadné soubory náš datový tým používá Python skript, který si napsal, a pro urgentní požadavky webovou aplikaci.”

Tato odpověď spustí doplňující otázku: „Jaké jsou rozdíly v pokrytí těchto nástrojů? Jak zajišťujete konzistentní výsledky napříč nástroji? Kde je auditní stopa dokládající konzistentní aplikaci?”

To jsou otázky, na které fragmentované nástroje nedokáží čistě odpovědět.

Problém konzistence pokrytí

Různé nástroje pro detekci PII používají různé základní přístupy k detekci:

Nástroje pouze s regexem: Hledají specifické vzory (formát rodného čísla, formát e-mailu, formát čísla kreditní karty). Přehlédnou entity na bázi NER (jména osob, organizace neodpovídající známému seznamu), kontextové identifikátory a formáty mimo USA.

Nástroje pouze s NER: Detekují typy entit pomocí natrénovaných modelů. Přehlédnou entity na bázi vzorů (IBAN, čísla účtů se specifickými formáty), vlastní organizační identifikátory a entity nezahrnuté v trénovacích datech.

Nástroj A vs. nástroj B vs. nástroj C: Každý má jiné pokrytí typů entit, jiné prahové hodnoty spolehlivosti, jiné zacházení s okrajovými případy. Tentýž dokument zpracovaný nástrojem A a nástrojem C může přinést odlišné výsledky detekce.

Problém souladu: pokud nástroj A (používaný pro PDF) detekuje data narození, ale nástroj B (používaný pro Excel) nikoli, pak je datum narození téhož subjektu v PDF anonymizováno, zatímco jeho datum narození v tabulce Excel anonymizováno není. Systematická kontrola souladu má mezeru závislou na formátu dokumentu.

Pro šetření DPA je tato mezera zjistitelná. Pokud dojde k narušení dat a šetření odhalí, že verze záznamu subjektu v Excelu nebyla anonymizována, zatímco verze v PDF ano, nekonzistentnost mezi nástroji je přispívajícím faktorem k expozici.

Problém auditní stopy

Dokumentace souladu vyžaduje důkaz, že kontroly jsou konzistentně aplikovány. Pro anonymizaci PII je tímto důkazem auditní stopa: co bylo zpracováno, kdy, kým, jakým nástrojem a jaký byl výsledek.

Čtyři různé nástroje produkují čtyři různé formáty auditní stopy — nebo žádnou auditní stopu vůbec. Word makro neprodukuje žádný protokol auditu. Python skript může zapisovat do lokálního souboru, který není integrován se systémem správy souladu. Rozšíření Chrome může produkovat protokoly na straně prohlížeče nepřístupné pro dokumentaci souladu. Pouze webová aplikace může produkovat centralizovanou auditní stopu.

Pro šetření DPA vyžadující důkaz auditní stopy není odpověď „tento dokument jsme zpracovali v Word makru, tyto protokoly jsou na lokálním počítači vývojáře” uspokojivá. Odpověď „zde je centralizovaný auditní protokol pokrývající veškeré zpracování anonymizace napříč všemi platformami za požadované období” uspokojivá je.

Zpracování na jedné platformě umožňuje pokrytí jednou auditní stopou. Fragmentované nástroje znemožňují centralizovanou auditní stopu.

Problém driftu konfigurace

V průběhu času si různé nástroje používané různými členy týmu vyvíjejí různé konfigurace:

  • Rozšíření Chrome je nakonfigurováno s vlastními typy entit organizace
  • Python skript nebyl aktualizován při přidání vlastních typů entit
  • Word makro bylo nakonfigurováno členem týmu, který již odešel, a nikdo nezná aktuální nastavení
  • Preset webové aplikace byl minulý měsíc aktualizován pro vyloučení jmen dodavatelů, ale tato aktualizace nebyla rozšířena na ostatní nástroje

Drift konfigurace vytváří problém nekonzistentnosti v opačném směru: i když všechny nástroje původně produkovaly podobné výsledky, údržbová aktivita u jednoho nástroje bez aktualizace ostatních v průběhu času způsobuje divergenci.

Pro kontroly ISO 27001 je požadavek na dokumentaci konfigurace zvláště problematický. Auditor ISO ptající se „ukažte mi konfiguraci pro vaše kontroly anonymizace PII” nemůže být uspokojen odpovědí „máme čtyři nástroje se čtyřmi různými konfiguracemi a nejsme si jisti, zda jsou všechny aktuální.”

Zjištění ISO 27001

15členný tým konzultační firmy v oblasti souladu používal čtyři různé nástroje: webový scraping tool pro online data, samostatný desktopový nástroj pro Windows pro hromadné soubory, Word makro pro právní dokumenty a rozšíření Chrome pro AI nástroje.

Audit ISO 27001 přinesl zjištění: „Nekonzistentní postupy anonymizace dat napříč platformami. Různé nástroje používané v různých kontextech produkují různé výsledky detekce a žádnou centralizovanou auditní stopu. Tím vzniká mezera v kontrole ISO/IEC 27001:2022 příloha A 8.11 (Maskování dat) — kontrolu nelze prokázat jako konzistentně aplikovanou.”

Zjištění z auditu vyžadovalo plán nápravných opatření. Implementované nápravné opatření: konsolidace na jedinou platformu pro anonymizaci pro všechny případy použití.

Výsledky po konsolidaci:

  • Stejný detekční engine napříč všemi platformami (webová aplikace, desktopová aplikace, doplněk Office, rozšíření Chrome)
  • Stejné presety aplikované napříč kontexty
  • Centralizovaná auditní stopa pro veškeré zpracování
  • Zjištění ISO 27001 uzavřeno při příštím kontrolním auditu

6týdenní konsolidační projekt eliminoval zjištění z auditu, které si vyžádalo 12stránkovou odpověď s nápravnými opatřeními.

Test narativu souladu

Užitečný test pro hodnocení fragmentace nástrojů PII: dokážete jasně odpovědět na následující otázky?

  1. Jaké typy entit jsou detekovány napříč všemi platformami, které váš tým používá pro anonymizaci PII?
  2. Jaká je prahová hodnota detekce (úroveň spolehlivosti) pro každý typ entity, konzistentně napříč všemi platformami?
  3. Kde je centralizovaná auditní stopa pro veškeré zpracování anonymizace za posledních 12 měsíců?
  4. Jak zajišťujete, aby změny konfigurace byly konzistentně aplikovány napříč všemi platformami?

Pokud na kteroukoli z těchto otázek dostanete váhavou odpověď, fragmentace vytváří riziko pro soulad. Čistá odpověď na všechny čtyři otázky je dosažitelná — ale pouze s unifikovaným enginem napříč platformami.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.