anonym.legal

By · Last updated 2026-06-05

Povratak na blogGDPR i usklađenost

GDPR i skenirana arhivska dokumenta: OCR i licni podaci

Pravo na brisanje podataka po GDPR-u primenjuje se na licne podatke 'bez obzira na format'. Skenirana arhivska dokumenta u obliku slika nisu izuzeta.

June 5, 20267 min čitanja
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR i arhivski skenirani fajlovi: OCR za licne podatke

Azurirano za 2026.

GDPR revizije cesto otkrivaju isti skriveni rizik: stare arhive PDF dokumenata zasnovane na slikama.

Advokatske kancelarije cuvaju 20 godina skeniranih klijentskih dosijea. Bolnice cuvaju decenije pacijentskih formulara. Drzavni organi skladiste skenirana akta. Banke imaju uslikane kreditne dosijee.

Ove arhive dele jednu zajednicku osobinu. Fajlovi su rasterske slike — skenirani PDF-ovi, TIFF ili JPEG. Nema tekstualnog sloja. Standardni alati za licne podatke ne mogu da ih procitaju. Za vecinu alata za anonimizaciju, ovi fajlovi jednostavno ne postoje.

Cesto se veruje: "Ovo su fajlovi slika — GDPR se ne primenjuje."

GDPR clan 17(1) daje ljudima pravo na brisanje. Recital 26 kaze da anonimizacija uklanja licne podatke iz oblasti primene. Nijedan od ta dva ne predvida izuzetak za formate slika. Advokatska kancelarija koja ne moze da ispuni zahtev za brisanje klijentskog dosijea starog 15 godina ima compliance propust. Ne postoji izuzece.

Pogledajte nas pregled usaglasenosti i bezbednosne prakse da biste videli kako podrzavamo GDPR.

Kako funkcionise pipeline za otkrivanje

Proces se odvija u tri faze.

Faza 1 — OCR

OCR motor cita sliku i ekstrahuje tekst. Biljezi poziciju svake reci. Izlaz je tekst citljiv masinskom procesorima sa koordinatama. Tacnost opada kada su prisutni rukopis, izbledelo mastilo ili stari tipovi slova.

Faza 2 — NLP detekcija entiteta

Prepoznavanje imenskih entiteta (NER) skenira OCR tekst. Pronalazi licna imena, organizacije i lokacije. Podudaranje obrazaca dodaje JMBG-ove, brojeve telefona i brojeve racuna. Svaki rezultat dobija ocenu pouzdanosti.

Faza 3 — Anonimizacija

Otkriveni entiteti se zamenjuju u tekstualnom izlazu. Originalna slika se ne menja. Izmena slike zahteva posebne alate za redakciju. Anonimizovani tekst podrzava zahteve za brisanje, DSAR odgovore i compliance evidencije.

Moderni OCR motori postizu 98–99% tacnosti karaktera na cistim stampanim stranicama. Rukopis ili degradirani skenovi padaju na 85–92%. Tacnost na nivou entiteta obicno je veca od tacnosti na nivou karaktera. Ime se moze identifikovati cak i kada nekoliko slova nije ispravno.

Prakticna implikacija: OCR tacnost utice na to koliko entiteta cete pronaci. Ne odredjuje da li metoda funkcionise. Cak i pri 90% tacnosti, pronalazite vecinu imena i brojeva. I dalje su potrebni nivoi kvaliteta. Sama metoda je ispravna.

Obrada velike arhive

Velika arhivska dokumenta prate radni tok od cetiri faze.

Faza 1 — Inventar: Napravite listu svih arhiva zasnovanih na slikama. Zabelezte izvorni sistem i vremenski raspon. Stavite na prvo mesto zapise sa visokim rizikom od zahteva za brisanje. Fajlovi koji se ticu klijenata dolaze pre internih.

Faza 2 — Serijska obrada: Pokrenite OCR i detekciju licnih podataka u serijama. Pet do deset hiljada fajlova po seriji je uobicajena velicina. Obrada se odvija preko noci. Izlaz je izvestaj o licnim podacima i anonimizovani tekstualni izvod za svaki fajl.

Faza 3 — Ispunjavanje zahteva za brisanje: Subjekt salje zahtev sa svojim imenom i periodom. Pretrazite anonimizovane izvode za njegove tokene. Pronadjite fajlove. Redakujte ih. Zabelezte akciju.

Faza 4 — Tekuca usaglasenost: Stavite nove skenirane fajlove kroz isti pipeline pre arhiviranja. Cuvajte izvestaje o licnim podacima kao dokaz Evidencije aktivnosti obrade prema clanu 30.

Studija slucaja: Arhiva advokatske kancelarije

Revizija advokatske kancelarije otkrila je 80.000 klijentskih ugovora u PDF formatu skeniranih od 1998. do 2010. Standardni alati za licne podatke nisu otkrili nista. Format slike bio je nevidljiv.

Petnaest bivsih klijenata podnelo je zahteve za brisanje u prethodnih 12 meseci. Kancelarija je odgovorila: "Ne mozemo da potvrdimo da su vasi zapisi obrisani." Taj odgovor ne ispunjava GDPR clan 17.

Sta je kancelarija uradila:

  • Pokrenula OCR i detekciju licnih podataka na svih 80.000 fajlova u serijama od 5.000
  • Obrada je trajala oko tri nedelje
  • Rezultat: 80.000 anonimizovanih tekstualnih izvoda sa izvestajima po fajlu
  • Izgradjen je indeks za pretragu koji povezuje entitete sa ID-ovima fajlova

Nakon obrade:

  • Pronalazenje fajlova za jednog subjekta: prosecno 4 minuta
  • Fajlova po zahtevu: prosecno 6–8
  • Vreme redakcije po zahtevu: 20–30 minuta

Svih 15 neresesnih zahteva reseno je u roku od 30 dana.

Kljucna stvar: compliance obaveza je postojala pre obrade. Kancelariji su jednostavno nedostajali alati da je ispuni. Obrada zasnovana na OCR-u nije stvorila novu duzan. Ona je omogucila ispunjavanje postojece duznosti.

Ogranicenja OCR-a i nivoi kvaliteta

Rukopis ima nizu OCR tacnost. Postavite nizi prag pouzdanosti pre obrade rukopisnog sadrzaja.

Los kvalitet skeniranja smanjuje ocene. Poboljsanje kontrasta i ispravka nagnutosti pomaze pre OCR-a.

Neobicni rasporedi — visekolonske stranice, stari pravni tipovi slova — takodje mogu imati nize ocene.

Postavite nivoe kvaliteta za compliance rad:

  • Iznad 95% tacnosti stranice: pokrenite automatsku obradu
  • 80–95%: pokrenite automatsku obradu, zatim ljudski pregled za oznacene entitete
  • Ispod 80%: posaljite na manuelni pregled

Slojeviti pristup daje regulatorima jasan odgovor o tome kako ste procenili pouzdanost. Vecina automatizovanih alata obradjuje fajlove visoke pouzdanosti. Manuelni red ceka ostale. Propusnost ostaje visoka. Kvalitet usaglasenosti takodje ostaje visok.

Nas FAQ pokriva uobicajena pitanja o obradi zasnovanoj na OCR-u i zahtevima za revizijski trag.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.