GDPR i arhivski skenirani fajlovi: OCR za licne podatke
Azurirano za 2026.
GDPR revizije cesto otkrivaju isti skriveni rizik: stare arhive PDF dokumenata zasnovane na slikama.
Advokatske kancelarije cuvaju 20 godina skeniranih klijentskih dosijea. Bolnice cuvaju decenije pacijentskih formulara. Drzavni organi skladiste skenirana akta. Banke imaju uslikane kreditne dosijee.
Ove arhive dele jednu zajednicku osobinu. Fajlovi su rasterske slike — skenirani PDF-ovi, TIFF ili JPEG. Nema tekstualnog sloja. Standardni alati za licne podatke ne mogu da ih procitaju. Za vecinu alata za anonimizaciju, ovi fajlovi jednostavno ne postoje.
Cesto se veruje: "Ovo su fajlovi slika — GDPR se ne primenjuje."
GDPR clan 17(1) daje ljudima pravo na brisanje. Recital 26 kaze da anonimizacija uklanja licne podatke iz oblasti primene. Nijedan od ta dva ne predvida izuzetak za formate slika. Advokatska kancelarija koja ne moze da ispuni zahtev za brisanje klijentskog dosijea starog 15 godina ima compliance propust. Ne postoji izuzece.
Pogledajte nas pregled usaglasenosti i bezbednosne prakse da biste videli kako podrzavamo GDPR.
Kako funkcionise pipeline za otkrivanje
Proces se odvija u tri faze.
Faza 1 — OCR
OCR motor cita sliku i ekstrahuje tekst. Biljezi poziciju svake reci. Izlaz je tekst citljiv masinskom procesorima sa koordinatama. Tacnost opada kada su prisutni rukopis, izbledelo mastilo ili stari tipovi slova.
Faza 2 — NLP detekcija entiteta
Prepoznavanje imenskih entiteta (NER) skenira OCR tekst. Pronalazi licna imena, organizacije i lokacije. Podudaranje obrazaca dodaje JMBG-ove, brojeve telefona i brojeve racuna. Svaki rezultat dobija ocenu pouzdanosti.
Faza 3 — Anonimizacija
Otkriveni entiteti se zamenjuju u tekstualnom izlazu. Originalna slika se ne menja. Izmena slike zahteva posebne alate za redakciju. Anonimizovani tekst podrzava zahteve za brisanje, DSAR odgovore i compliance evidencije.
Moderni OCR motori postizu 98–99% tacnosti karaktera na cistim stampanim stranicama. Rukopis ili degradirani skenovi padaju na 85–92%. Tacnost na nivou entiteta obicno je veca od tacnosti na nivou karaktera. Ime se moze identifikovati cak i kada nekoliko slova nije ispravno.
Prakticna implikacija: OCR tacnost utice na to koliko entiteta cete pronaci. Ne odredjuje da li metoda funkcionise. Cak i pri 90% tacnosti, pronalazite vecinu imena i brojeva. I dalje su potrebni nivoi kvaliteta. Sama metoda je ispravna.
Obrada velike arhive
Velika arhivska dokumenta prate radni tok od cetiri faze.
Faza 1 — Inventar: Napravite listu svih arhiva zasnovanih na slikama. Zabelezte izvorni sistem i vremenski raspon. Stavite na prvo mesto zapise sa visokim rizikom od zahteva za brisanje. Fajlovi koji se ticu klijenata dolaze pre internih.
Faza 2 — Serijska obrada: Pokrenite OCR i detekciju licnih podataka u serijama. Pet do deset hiljada fajlova po seriji je uobicajena velicina. Obrada se odvija preko noci. Izlaz je izvestaj o licnim podacima i anonimizovani tekstualni izvod za svaki fajl.
Faza 3 — Ispunjavanje zahteva za brisanje: Subjekt salje zahtev sa svojim imenom i periodom. Pretrazite anonimizovane izvode za njegove tokene. Pronadjite fajlove. Redakujte ih. Zabelezte akciju.
Faza 4 — Tekuca usaglasenost: Stavite nove skenirane fajlove kroz isti pipeline pre arhiviranja. Cuvajte izvestaje o licnim podacima kao dokaz Evidencije aktivnosti obrade prema clanu 30.
Studija slucaja: Arhiva advokatske kancelarije
Revizija advokatske kancelarije otkrila je 80.000 klijentskih ugovora u PDF formatu skeniranih od 1998. do 2010. Standardni alati za licne podatke nisu otkrili nista. Format slike bio je nevidljiv.
Petnaest bivsih klijenata podnelo je zahteve za brisanje u prethodnih 12 meseci. Kancelarija je odgovorila: "Ne mozemo da potvrdimo da su vasi zapisi obrisani." Taj odgovor ne ispunjava GDPR clan 17.
Sta je kancelarija uradila:
- Pokrenula OCR i detekciju licnih podataka na svih 80.000 fajlova u serijama od 5.000
- Obrada je trajala oko tri nedelje
- Rezultat: 80.000 anonimizovanih tekstualnih izvoda sa izvestajima po fajlu
- Izgradjen je indeks za pretragu koji povezuje entitete sa ID-ovima fajlova
Nakon obrade:
- Pronalazenje fajlova za jednog subjekta: prosecno 4 minuta
- Fajlova po zahtevu: prosecno 6–8
- Vreme redakcije po zahtevu: 20–30 minuta
Svih 15 neresesnih zahteva reseno je u roku od 30 dana.
Kljucna stvar: compliance obaveza je postojala pre obrade. Kancelariji su jednostavno nedostajali alati da je ispuni. Obrada zasnovana na OCR-u nije stvorila novu duzan. Ona je omogucila ispunjavanje postojece duznosti.
Ogranicenja OCR-a i nivoi kvaliteta
Rukopis ima nizu OCR tacnost. Postavite nizi prag pouzdanosti pre obrade rukopisnog sadrzaja.
Los kvalitet skeniranja smanjuje ocene. Poboljsanje kontrasta i ispravka nagnutosti pomaze pre OCR-a.
Neobicni rasporedi — visekolonske stranice, stari pravni tipovi slova — takodje mogu imati nize ocene.
Postavite nivoe kvaliteta za compliance rad:
- Iznad 95% tacnosti stranice: pokrenite automatsku obradu
- 80–95%: pokrenite automatsku obradu, zatim ljudski pregled za oznacene entitete
- Ispod 80%: posaljite na manuelni pregled
Slojeviti pristup daje regulatorima jasan odgovor o tome kako ste procenili pouzdanost. Vecina automatizovanih alata obradjuje fajlove visoke pouzdanosti. Manuelni red ceka ostale. Propusnost ostaje visoka. Kvalitet usaglasenosti takodje ostaje visok.
Nas FAQ pokriva uobicajena pitanja o obradi zasnovanoj na OCR-u i zahtevima za revizijski trag.