Azurirano za 2026.

GDPR revizije cesto otkrivaju isti skriveni rizik: stare arhive PDF dokumenata zasnovane na slikama.

Advokatske kancelarije cuvaju 20 godina skeniranih klijentskih dosijea. Bolnice cuvaju decenije pacijentskih formulara. Drzavni organi skladiste skenirana akta. Banke imaju uslikane kreditne dosijee.

Ove arhive dele jednu zajednicku osobinu. Fajlovi su rasterske slike — skenirani PDF-ovi, TIFF ili JPEG. Nema tekstualnog sloja. Standardni alati za licne podatke ne mogu da ih procitaju. Za vecinu alata za anonimizaciju, ovi fajlovi jednostavno ne postoje.

Cesto se veruje: "Ovo su fajlovi slika — GDPR se ne primenjuje."

GDPR clan 17(1) daje ljudima pravo na brisanje. Recital 26 kaze da anonimizacija uklanja licne podatke iz oblasti primene. Nijedan od ta dva ne predvida izuzetak za formate slika. Advokatska kancelarija koja ne moze da ispuni zahtev za brisanje klijentskog dosijea starog 15 godina ima compliance propust. Ne postoji izuzece.

Pogledajte nas pregled usaglasenosti i bezbednosne prakse da biste videli kako podrzavamo GDPR.

Kako funkcionise pipeline za otkrivanje

Proces se odvija u tri faze.

Faza 1 — OCR

OCR motor cita sliku i ekstrahuje tekst. Biljezi poziciju svake reci. Izlaz je tekst citljiv masinskom procesorima sa koordinatama. Tacnost opada kada su prisutni rukopis, izbledelo mastilo ili stari tipovi slova.

Faza 2 — NLP detekcija entiteta

Prepoznavanje imenskih entiteta (NER) skenira OCR tekst. Pronalazi licna imena, organizacije i lokacije. Podudaranje obrazaca dodaje JMBG-ove, brojeve telefona i brojeve racuna. Svaki rezultat dobija ocenu pouzdanosti.

Faza 3 — Anonimizacija

Otkriveni entiteti se zamenjuju u tekstualnom izlazu. Originalna slika se ne menja. Izmena slike zahteva posebne alate za redakciju. Anonimizovani tekst podrzava zahteve za brisanje, DSAR odgovore i compliance evidencije.

Moderni OCR motori postizu 98–99% tacnosti karaktera na cistim stampanim stranicama. Rukopis ili degradirani skenovi padaju na 85–92%. Tacnost na nivou entiteta obicno je veca od tacnosti na nivou karaktera. Ime se moze identifikovati cak i kada nekoliko slova nije ispravno.

Prakticna implikacija: OCR tacnost utice na to koliko entiteta cete pronaci. Ne odredjuje da li metoda funkcionise. Cak i pri 90% tacnosti, pronalazite vecinu imena i brojeva. I dalje su potrebni nivoi kvaliteta. Sama metoda je ispravna.

Obrada velike arhive

Velika arhivska dokumenta prate radni tok od cetiri faze.

Faza 1 — Inventar: Napravite listu svih arhiva zasnovanih na slikama. Zabelezte izvorni sistem i vremenski raspon. Stavite na prvo mesto zapise sa visokim rizikom od zahteva za brisanje. Fajlovi koji se ticu klijenata dolaze pre internih.

Faza 2 — Serijska obrada: Pokrenite OCR i detekciju licnih podataka u serijama. Pet do deset hiljada fajlova po seriji je uobicajena velicina. Obrada se odvija preko noci. Izlaz je izvestaj o licnim podacima i anonimizovani tekstualni izvod za svaki fajl.

Faza 3 — Ispunjavanje zahteva za brisanje: Subjekt salje zahtev sa svojim imenom i periodom. Pretrazite anonimizovane izvode za njegove tokene. Pronadjite fajlove. Redakujte ih. Zabelezte akciju.

Faza 4 — Tekuca usaglasenost: Stavite nove skenirane fajlove kroz isti pipeline pre arhiviranja. Cuvajte izvestaje o licnim podacima kao dokaz Evidencije aktivnosti obrade prema clanu 30.

Studija slucaja: Arhiva advokatske kancelarije

Revizija advokatske kancelarije otkrila je 80.000 klijentskih ugovora u PDF formatu skeniranih od 1998. do 2010. Standardni alati za licne podatke nisu otkrili nista. Format slike bio je nevidljiv.

Petnaest bivsih klijenata podnelo je zahteve za brisanje u prethodnih 12 meseci. Kancelarija je odgovorila: "Ne mozemo da potvrdimo da su vasi zapisi obrisani." Taj odgovor ne ispunjava GDPR clan 17.

Sta je kancelarija uradila:

Pokrenula OCR i detekciju licnih podataka na svih 80.000 fajlova u serijama od 5.000
Obrada je trajala oko tri nedelje
Rezultat: 80.000 anonimizovanih tekstualnih izvoda sa izvestajima po fajlu
Izgradjen je indeks za pretragu koji povezuje entitete sa ID-ovima fajlova

Nakon obrade:

Pronalazenje fajlova za jednog subjekta: prosecno 4 minuta
Fajlova po zahtevu: prosecno 6–8
Vreme redakcije po zahtevu: 20–30 minuta

Svih 15 neresesnih zahteva reseno je u roku od 30 dana.

Kljucna stvar: compliance obaveza je postojala pre obrade. Kancelariji su jednostavno nedostajali alati da je ispuni. Obrada zasnovana na OCR-u nije stvorila novu duzan. Ona je omogucila ispunjavanje postojece duznosti.

Ogranicenja OCR-a i nivoi kvaliteta

Rukopis ima nizu OCR tacnost. Postavite nizi prag pouzdanosti pre obrade rukopisnog sadrzaja.

Los kvalitet skeniranja smanjuje ocene. Poboljsanje kontrasta i ispravka nagnutosti pomaze pre OCR-a.

Neobicni rasporedi — visekolonske stranice, stari pravni tipovi slova — takodje mogu imati nize ocene.

Postavite nivoe kvaliteta za compliance rad:

Iznad 95% tacnosti stranice: pokrenite automatsku obradu
80–95%: pokrenite automatsku obradu, zatim ljudski pregled za oznacene entitete
Ispod 80%: posaljite na manuelni pregled

Slojeviti pristup daje regulatorima jasan odgovor o tome kako ste procenili pouzdanost. Vecina automatizovanih alata obradjuje fajlove visoke pouzdanosti. Manuelni red ceka ostale. Propusnost ostaje visoka. Kvalitet usaglasenosti takodje ostaje visok.

Nas FAQ pokriva uobicajena pitanja o obradi zasnovanoj na OCR-u i zahtevima za revizijski trag.

Izvori

Povezani članci

GDPR i usklađenost

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

Započnite besplatnu probu Pogledajte funkcije

GDPR i skenirana arhivska dokumenta: OCR i licni podaci

Kako funkcionise pipeline za otkrivanje

Obrada velike arhive

Studija slucaja: Arhiva advokatske kancelarije

Ogranicenja OCR-a i nivoi kvaliteta

Izvori

Povezani članci

Sopstveno hostovani PII ne prolazi revizije uskladjenosti

Presidio propusta 220+ GDPR entiteta

Klizanje konfiguracije: Skriven rizik GDPR-a

Spremni da zaštitite svoje podatke?

GDPR i skenirana arhivska dokumenta: OCR i licni podaci

GDPR i arhivski skenirani fajlovi: OCR za licne podatke

Kako funkcionise pipeline za otkrivanje

Obrada velike arhive

Studija slucaja: Arhiva advokatske kancelarije

Ogranicenja OCR-a i nivoi kvaliteta

Izvori

Povezani članci

Sopstveno hostovani PII ne prolazi revizije uskladjenosti

Presidio propusta 220+ GDPR entiteta

Klizanje konfiguracije: Skriven rizik GDPR-a

Spremni da zaštitite svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow