By · Last updated 2026-06-05

Povratak na BlogGDPR & Usklađenost

GDPR i naslijedeni skenirani dokumenti: OCR i osobni podaci

Pravo na brisanje prema GDPR-u primjenjuje se na osobne podatke 'bez obzira na format.' Slicni PDF-ovi iz papirnih arhiva nisu izuzeti.

June 5, 20267 min čitanja
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR i naslijedene skenirane datoteke: OCR za osobne podatke

Azurirano za 2026.

GDPR revizije cesto otkrivaju isti skriveni rizik: stare arhive PDF-ova temeljenih na slikama.

Odvetnicke tvrtke cuvaju 20 godina skeniranih klijentskih datoteka. Bolnice cuvaju desetljeca pacijentskih obrazaca. Vladina tijela pohranjuju skenirane zapise. Banke imaju slikovne datoteke zajmova.

Te arhive dijele jednu osobinu. Datoteke su rasterske slike — skenirani PDF-ovi, TIFF ili JPEG. Nema tekstualnog sloja. Standardni alati za osobne podatke ne mogu ih citati. Za vecinu alata za anonimizaciju, te datoteke ne postoje.

Cesto uvjerenje: "To su slikovne datoteke — GDPR se ne primjenjuje."

Clanak 17(1) GDPR-a daje ljudima pravo na brisanje. Uvodna izjava 26 kaze da anonimizacija uklanja osobne podatke iz podrucja primjene. Niti jedan od njih ne predvida iznimku za slikovne formate. Odvjetnicka tvrtka koja ne moze ispuniti zahtjev za brisanjem za 15 godina staru klijentsku datoteku ima uskladenosnu prazninu. Nema iznimku.

Pogledajte nas pregled uskladenosti i sigurnosne prakse za informacije o tome kako podrzavamo GDPR.

Kako funkcionira cjevovod otkrivanja

Proces se odvija u tri faze.

Faza 1 — OCR

OCR motor cita sliku i izvlaci tekst. Biljezi polozaj svake rijeci. Izlaz je strojno citljiv tekst s koordinatama. Tocnost pada kada su prisutni rukopis, izblijedijelo tinto ili stari tipografski oblici.

Faza 2 — Otkrivanje NLP entiteta

Prepoznavanje imenovanih entiteta (NER) skenira OCR tekst. Pronalazi osobna imena, organizacije i lokacije. Podudaranje uzoraka dodaje JMBG-ove, brojeve telefona i brojeve racuna. Svaki pogodak dobiva ocjenu pouzdanosti.

Faza 3 — Anonimizacija

Otkriveni entiteti zamjenjuju se u tekstualnom izlazu. Originalna slika se ne mijenja. Promjena slike zahtijeva posebne alate za redakciju. Anonimizirani tekst podrzava zahtjeve za brisanjem, odgovore na DSAR i zapise o uskladenosti.

Moderni OCR motori postizu 98–99% tocnosti znakova na cistim tiskanim stranicama. Rukopis ili degradirani skenovi padaju na 85–92%. Tocnost na razini entiteta obicno je veca od tocnosti na razini znakova. Ime se moze identificirati cak i kada je nekoliko slova pogresno.

Prakticni zakljucak: tocnost OCR-a utjece na to koliko entiteta pronalazite. Ne odreduje je li metoda funkcionalna. Cak i pri 90% tocnosti, pronalazite vecinu imena i brojeva. Razine kvalitete su i dalje potrebne. Sama metoda je zvucna.

Obrada velike arhive

Velika naslijedena arhiva prati cetverofazni tijek rada.

Faza 1 — Inventura: Popisite sve arhive temeljene na slikama. Zabiljezite izvorni sustav i vremenski raspon. Stavite zapise s visokim rizikom brisanja na prvo mjesto. Klijentske datoteke dolaze prije internih.

Faza 2 — Skupna obrada: Pokrenite OCR i otkrivanje osobnih podataka u skupovima. Pet do deset tisuca datoteka po skupu je uobicajena velicina. Obrada se odvija preko noci. Izlaz je izvjesce o osobnim podacima i anonimizirani tekstualni izvadak za svaku datoteku.

Faza 3 — Ispunjenje zahtjeva za brisanjem: Subjekt salje zahtjev s imenom i periodom. Pretrazite anonimizirane izvatke za njihovim tokenima. Pronadite datoteke. Redaktirajte ih. Zabiljesite radnju.

Faza 4 — Kontinuirana uskladenost: Stavite nove skenirane datoteke kroz isti cjevovod prije arhiviranja. Cuvajte izvjesca o osobnim podacima kao dokaze za zapise o aktivnostima obrade prema Clanku 30.

Studija slucaja: Arhiva odvjetnicke tvrtke

Revizija odvjetnicke tvrtke pronasla je 80 000 klijentskih ugovora u PDF formatu skeniranih od 1998. do 2010. Standardni alati za osobne podatke pokazali su nula detekcija. Format slike bio je nevidljiv.

Petnaest bivsis klijenata podnijelo je zahtjeve za brisanjem u prethodnih 12 mjeseci. Tvrtka je rekla: "Ne mozemo potvrditi da su vasi zapisi izbrisani." Taj odgovor ne zadovoljava Clanak 17 GDPR-a.

Sto je tvrtka ucinila:

  • Pokrenula OCR i otkrivanje osobnih podataka na svih 80 000 datoteka u skupovima od 5 000
  • Obrada je trajala oko tri tjedna
  • Rezultat: 80 000 anonimiziranih tekstualnih izvadaka s izvjescima po datoteci
  • Izgradila pretrazi indeks koji povezuje entitete s ID-ovima datoteka

Nakon obrade:

  • Pronalazak datoteka za jedan subjekt: prosjecno 4 minute
  • Datoteke po zahtjevu: prosjecno 6–8
  • Vrijeme redakcije po zahtjevu: 20–30 minuta

Svih 15 otvorenih zahtjeva rijeseno je u roku od 30 dana.

Kljucna tocka: obveza uskladenosti postojala je prije obrade. Tvrtki su jednostavno nedostajali alati za njezino ispunjenje. OCR obrada nije stvorila novu duzhnost. Omogucila je ispunjenje postojece duzhnosti.

Ogranicenja OCR-a i razine kvalitete

Rukopis ima nizu tocnost OCR-a. Postavite nizi prag pouzdanosti prije obrade rukom pisanog sadrzaja.

Lose kvalitete skeniranja smanjuju ocjene. Poboljsanje kontrasta i ispravljanje nagnutosti pomaze prije pokretanja OCR-a.

Neuobicajeni rasporedi — visestupacne stranice, stari pravni tipografski oblici — mogu takoder imati nize ocjene.

Postavite razine kvalitete za rad na uskladenosti:

  • Iznad 95% tocnosti stranice: pokrenite automatiziranu obradu
  • 80–95%: pokrenite automatiziranu obradu, zatim ljudski pregled za oznacene entitete
  • Ispod 80%: posaljite na rucni pregled

Slojeviti pristup daje regulatorima jasan odgovor o tome kako ste procijenili pouzdanost. Vecina automatiziranih alata obraduje datoteke s visokom pouzdanoscu. Rucni red ceka ostatak. Propusnost ostaje visoka. Kvaliteta uskladenosti takoder ostaje visoka.

Nas FAQ obuhvaca uobicajena pitanja o OCR obradi i zahtjevima za revizijski trag.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.