Azurirano za 2026.

GDPR revizije cesto otkrivaju isti skriveni rizik: stare arhive PDF-ova temeljenih na slikama.

Odvetnicke tvrtke cuvaju 20 godina skeniranih klijentskih datoteka. Bolnice cuvaju desetljeca pacijentskih obrazaca. Vladina tijela pohranjuju skenirane zapise. Banke imaju slikovne datoteke zajmova.

Te arhive dijele jednu osobinu. Datoteke su rasterske slike — skenirani PDF-ovi, TIFF ili JPEG. Nema tekstualnog sloja. Standardni alati za osobne podatke ne mogu ih citati. Za vecinu alata za anonimizaciju, te datoteke ne postoje.

Cesto uvjerenje: "To su slikovne datoteke — GDPR se ne primjenjuje."

Clanak 17(1) GDPR-a daje ljudima pravo na brisanje. Uvodna izjava 26 kaze da anonimizacija uklanja osobne podatke iz podrucja primjene. Niti jedan od njih ne predvida iznimku za slikovne formate. Odvjetnicka tvrtka koja ne moze ispuniti zahtjev za brisanjem za 15 godina staru klijentsku datoteku ima uskladenosnu prazninu. Nema iznimku.

Pogledajte nas pregled uskladenosti i sigurnosne prakse za informacije o tome kako podrzavamo GDPR.

Kako funkcionira cjevovod otkrivanja

Proces se odvija u tri faze.

Faza 1 — OCR

OCR motor cita sliku i izvlaci tekst. Biljezi polozaj svake rijeci. Izlaz je strojno citljiv tekst s koordinatama. Tocnost pada kada su prisutni rukopis, izblijedijelo tinto ili stari tipografski oblici.

Faza 2 — Otkrivanje NLP entiteta

Prepoznavanje imenovanih entiteta (NER) skenira OCR tekst. Pronalazi osobna imena, organizacije i lokacije. Podudaranje uzoraka dodaje JMBG-ove, brojeve telefona i brojeve racuna. Svaki pogodak dobiva ocjenu pouzdanosti.

Faza 3 — Anonimizacija

Otkriveni entiteti zamjenjuju se u tekstualnom izlazu. Originalna slika se ne mijenja. Promjena slike zahtijeva posebne alate za redakciju. Anonimizirani tekst podrzava zahtjeve za brisanjem, odgovore na DSAR i zapise o uskladenosti.

Moderni OCR motori postizu 98–99% tocnosti znakova na cistim tiskanim stranicama. Rukopis ili degradirani skenovi padaju na 85–92%. Tocnost na razini entiteta obicno je veca od tocnosti na razini znakova. Ime se moze identificirati cak i kada je nekoliko slova pogresno.

Prakticni zakljucak: tocnost OCR-a utjece na to koliko entiteta pronalazite. Ne odreduje je li metoda funkcionalna. Cak i pri 90% tocnosti, pronalazite vecinu imena i brojeva. Razine kvalitete su i dalje potrebne. Sama metoda je zvucna.

Obrada velike arhive

Velika naslijedena arhiva prati cetverofazni tijek rada.

Faza 1 — Inventura: Popisite sve arhive temeljene na slikama. Zabiljezite izvorni sustav i vremenski raspon. Stavite zapise s visokim rizikom brisanja na prvo mjesto. Klijentske datoteke dolaze prije internih.

Faza 2 — Skupna obrada: Pokrenite OCR i otkrivanje osobnih podataka u skupovima. Pet do deset tisuca datoteka po skupu je uobicajena velicina. Obrada se odvija preko noci. Izlaz je izvjesce o osobnim podacima i anonimizirani tekstualni izvadak za svaku datoteku.

Faza 3 — Ispunjenje zahtjeva za brisanjem: Subjekt salje zahtjev s imenom i periodom. Pretrazite anonimizirane izvatke za njihovim tokenima. Pronadite datoteke. Redaktirajte ih. Zabiljesite radnju.

Faza 4 — Kontinuirana uskladenost: Stavite nove skenirane datoteke kroz isti cjevovod prije arhiviranja. Cuvajte izvjesca o osobnim podacima kao dokaze za zapise o aktivnostima obrade prema Clanku 30.

Studija slucaja: Arhiva odvjetnicke tvrtke

Revizija odvjetnicke tvrtke pronasla je 80 000 klijentskih ugovora u PDF formatu skeniranih od 1998. do 2010. Standardni alati za osobne podatke pokazali su nula detekcija. Format slike bio je nevidljiv.

Petnaest bivsis klijenata podnijelo je zahtjeve za brisanjem u prethodnih 12 mjeseci. Tvrtka je rekla: "Ne mozemo potvrditi da su vasi zapisi izbrisani." Taj odgovor ne zadovoljava Clanak 17 GDPR-a.

Sto je tvrtka ucinila:

Pokrenula OCR i otkrivanje osobnih podataka na svih 80 000 datoteka u skupovima od 5 000
Obrada je trajala oko tri tjedna
Rezultat: 80 000 anonimiziranih tekstualnih izvadaka s izvjescima po datoteci
Izgradila pretrazi indeks koji povezuje entitete s ID-ovima datoteka

Nakon obrade:

Pronalazak datoteka za jedan subjekt: prosjecno 4 minute
Datoteke po zahtjevu: prosjecno 6–8
Vrijeme redakcije po zahtjevu: 20–30 minuta

Svih 15 otvorenih zahtjeva rijeseno je u roku od 30 dana.

Kljucna tocka: obveza uskladenosti postojala je prije obrade. Tvrtki su jednostavno nedostajali alati za njezino ispunjenje. OCR obrada nije stvorila novu duzhnost. Omogucila je ispunjenje postojece duzhnosti.

Ogranicenja OCR-a i razine kvalitete

Rukopis ima nizu tocnost OCR-a. Postavite nizi prag pouzdanosti prije obrade rukom pisanog sadrzaja.

Lose kvalitete skeniranja smanjuju ocjene. Poboljsanje kontrasta i ispravljanje nagnutosti pomaze prije pokretanja OCR-a.

Neuobicajeni rasporedi — visestupacne stranice, stari pravni tipografski oblici — mogu takoder imati nize ocjene.

Postavite razine kvalitete za rad na uskladenosti:

Iznad 95% tocnosti stranice: pokrenite automatiziranu obradu
80–95%: pokrenite automatiziranu obradu, zatim ljudski pregled za oznacene entitete
Ispod 80%: posaljite na rucni pregled

Slojeviti pristup daje regulatorima jasan odgovor o tome kako ste procijenili pouzdanost. Vecina automatiziranih alata obraduje datoteke s visokom pouzdanoscu. Rucni red ceka ostatak. Propusnost ostaje visoka. Kvaliteta uskladenosti takoder ostaje visoka.

Nas FAQ obuhvaca uobicajena pitanja o OCR obradi i zahtjevima za revizijski trag.

Izvori

Povezani Članci

GDPR & Usklađenost

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

Započnite Besplatno Suđenje Pogledajte Značajke

GDPR i naslijedeni skenirani dokumenti: OCR i osobni podaci

Kako funkcionira cjevovod otkrivanja

Obrada velike arhive

Studija slucaja: Arhiva odvjetnicke tvrtke

Ogranicenja OCR-a i razine kvalitete

Izvori

Povezani Članci

Samo-hostirana PII rjesenja ne prolaze revizije uskladivanja

Presidio propusta 220+ GDPR entiteta

Drift konfiguracije: Skriven GDPR rizik

Spremni za zaštitu vaših podataka?

GDPR i naslijedeni skenirani dokumenti: OCR i osobni podaci

GDPR i naslijedene skenirane datoteke: OCR za osobne podatke

Kako funkcionira cjevovod otkrivanja

Obrada velike arhive

Studija slucaja: Arhiva odvjetnicke tvrtke

Ogranicenja OCR-a i razine kvalitete

Izvori

Povezani Članci

Samo-hostirana PII rjesenja ne prolaze revizije uskladivanja

Presidio propusta 220+ GDPR entiteta

Drift konfiguracije: Skriven GDPR rizik

Spremni za zaštitu vaših podataka?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow