By · Last updated 2026-06-05

Zpět na blogGDPR a shoda

GDPR a historické naskenované dokumenty: OCR a detekce PII

GDPR zakotvuje právo na výmaz osobních údajů „bez ohledu na formát.” Obrazová PDF z papírových archivů nejsou vyjmuta.

June 5, 20267 min čtení
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Problém historických archivů, o kterém se nemluví

Organizace provádějící audity souladu s GDPR opakovaně narážejí na stejnou kategorii skrytého rizika: archivy obrazových PDF vzniklých před zavedením digitalizačních programů.

Právní firmy s dvacetiletou historií naskenovaných klientských spisů. Zdravotnická zařízení s desetiletími naskenovaných formulářů pro příjem pacientů. Vládní agentury s naskenovanými historickými záznamy. Banky s obrazovými kopiemi žádostí o úvěr a účetními dokumenty.

Tyto archivy mají společného jmenovatele: dokumenty jsou uloženy jako naskenované obrazy (rastrová PDF, TIFF nebo JPEG), nikoli jako textové digitální dokumenty. Není tu žádná textová vrstva, žádný strojově čitelný obsah pro standardní nástroje na detekci PII. Pro konvenční anonymizační nástroj jsou tyto dokumenty neviditelné.

Rozšířená mylná představa zní: „Jsou to jen obrázkové soubory — GDPR se na ně vlastně nevztahuje.”

Text GDPR je jednoznačný. Článek 17 odst. 1 přiznává subjektům údajů právo na výmaz osobních údajů. Recitál 26 potvrzuje, že anonymizace osobních údajů je standardem pro data, která se již nevztahují k identifikovatelné fyzické osobě. Žádné z těchto ustanovení nestanoví výjimku pro obrazové formáty pocházející z papírových originálů.

Právní firma, která není schopna odpovědět na žádost o výmaz klienta zastupovaného před patnácti lety — protože patnáct let staré klientské záznamy existují výhradně jako naskenovaná obrazová PDF — má mezeru v souladu s GDPR, nikoli výjimku.

Jak funguje detekce PII v obrazových dokumentech

Technický postup detekce PII v obrazových dokumentech integruje dvě fáze:

Fáze 1: Optické rozpoznávání znaků (OCR)

  • Vstup: naskenované PDF nebo obrázkový soubor
  • OCR engine extrahuje text z naskenovaného obrazu
  • Výstup: strojově čitelný text s prostorovými souřadnicemi
  • Výzva: ručně psaný text, nízká kvalita skenu, vybledlý inkoust a staré typy písma snižují přesnost OCR

Fáze 2: Detekce PII pomocí NLP

  • Vstup: text extrahovaný pomocí OCR
  • Rozpoznávání pojmenovaných entit (NER) identifikuje jména osob, organizací a míst
  • Shoda vzorů identifikuje rodná čísla, telefonní čísla, e-mailové adresy a čísla účtů
  • Výstup: detekované entity PII se skóre spolehlivosti a prostorovými referencemi

Fáze 3: Anonymizace

  • Detekované entity jsou anonymizovány v extrahovaném textovém výstupu
  • U obrazových PDF: výstupem je anonymizovaný textový dokument (originální obraz není upraven — jeho úprava by vyžadovala nástroje pro redakci PDF)
  • Anonymizovaný text umožňuje odpovědi na žádosti DSAR, plnění žádostí o výmaz a dokumentaci pro účely souladu

Kvalita OCR je primárním technickým omezením. U kvalitně tisknutých dokumentů dosahují moderní OCR enginy přesnosti 98–99 % na úrovni znaků. U ručně psaného nebo degradovaného skenu může být přesnost 85–92 %. Pro účely detekce PII bývá přesnost na úrovni entit (správné zjištění, že se jméno v dokumentu vyskytuje, i když mají jednotlivé znaky drobné chyby) zpravidla vyšší než přesnost na úrovni znaků.

Praktické zpracování rozsáhlých archivů

Pro organizace s rozsáhlými historickými archivy platí tento provozní postup:

Fáze inventarizace:

  • Zaevidujte všechny archivy obrazových PDF podle zdrojového systému a časového rozsahu
  • Odhadněte objem a stanovte prioritu podle rizika žádostí o výmaz (záznamy zaměřené na klienty mají přednost)

Dávkové zpracování:

  • Zpracovávejte archivy v dávkách (typicky 5 000–10 000 souborů)
  • OCR + detekce PII probíhají asynchronně
  • Výstup: zprávy o detekci PII pro každý soubor a extrakty anonymizovaného textu

Plnění žádostí o výmaz:

  • Subjekt údajů podá žádost o výmaz se svým jménem a příslušným obdobím
  • Vyhledejte v extraktech anonymizovaného textu pseudonymizované tokeny propojené s daným subjektem
  • Identifikujte konkrétní dokumenty obsahující záznamy o subjektu
  • Zpracujte tyto konkrétní dokumenty pro redakci (úprava originálního obrazového PDF)
  • Zdokumentujte provedení výmazu

Průběžný soulad:

  • Nové naskenované dokumenty procházejí stejným postupem před archivací
  • Zprávy o detekci PII jsou uchovávány jako důkaz pro záznamy o činnostech zpracování podle článku 30 GDPR

Případová studie: dvacetileté archivy advokátní kanceláře

Právní firma provádějící audit GDPR objevila 80 000 obrazových PDF klientských smluv naskenovaných v letech 1998 až 2010. Standardní nástroje pro PII nevrátily žádné detekce — obrazový formát byl pro ně neviditelný.

Soulad byl konkrétně narušen: 15 bývalých klientů podalo žádosti o výmaz v průběhu předchozích 12 měsíců. Odpověď firmy zněla: „Nemůžeme potvrdit, že vaše data byla vymazána, protože naše historické záznamy jsou v obrazovém formátu, který neumíme zpracovat.” Taková odpověď nesplňuje požadavky GDPR dle článku 17.

Postup zpracování:

  • OCR + detekce PII na všech 80 000 dokumentech v dávkách po 5 000
  • Doba zpracování: přibližně 3 týdny dávkového zpracování
  • Výsledek: 80 000 anonymizovaných textových extraktů se zprávami o detekci PII pro každý soubor
  • Prohledávatelný index detekovaných entit propojených s identifikátory dokumentů

Plnění žádostí o výmaz po zpracování:

  • Průměrná doba k identifikaci dokumentů konkrétního subjektu údajů: 4 minuty (vyhledávání v anonymizovaných extraktech)
  • Počet dokumentů na žádost o výmaz: průměrně 6–8 dokumentů
  • Redakce identifikovaných dokumentů: 20–30 minut na žádost

Předtím nesplnitelná povinnost v oblasti souladu: splněna. 15 nevyřízených žádostí o výmaz bylo vyřešeno do 30 dnů od dokončení zpracování archivu.

Omezení OCR a řízení kvality

Poctivé posouzení detekce PII na základě OCR u historických dokumentů vyžaduje přiznání omezení:

Přesnost ručního písma: Ručně psané dokumenty (osobní prohlášení, ručně vyplněné přihlášky) mají nižší přesnost OCR než tisknuté dokumenty. Detekce PII v ručně psaném obsahu vyžaduje úpravu prahové hodnoty spolehlivosti.

Degradovaná kvalita skenu: Dokumenty naskenované s nízkým rozlišením nebo špatnou expozicí mají sníženou přesnost OCR. Předběžné zpracování (zvýšení kontrastu, narovnání) může výsledky zlepšit.

Neobvyklé typy písma a formáty: Předdigitální typy písma, formáty právních dokumentů s neobvyklým rozložením a vícesloupcové dokumenty mohou mít nižší přesnost OCR.

Nastavení prahové hodnoty kvality: Pro účely dokumentace souladu je vhodné klasifikovat dokumenty podle spolehlivosti OCR: vysoká spolehlivost (> 95 % přesnost na stránce) — vhodné pro automatizované zpracování; střední spolehlivost (80–95 %) — vhodné pro automatizované zpracování s lidskou kontrolou označených entit; nízká spolehlivost (< 80 %) — vyžaduje ruční kontrolu.

Pro organizace s rozsáhlými archivy degradovaných historických dokumentů poskytuje hybridní přístup — automatizované zpracování pro dokumenty s vysokou spolehlivostí, fronta pro ruční kontrolu u dokumentů s nízkou spolehlivostí — praktický průtok při zachování kvality souladu.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.