Problema Arhivelor Mostenite despre Care Nimeni nu Vorbeste
Organizatiile care efectueaza audituri de conformitate GDPR descopera frecvent aceeasi categorie de risc ascuns: arhive PDF bazate pe imagini din inainte ca programele de digitizare sa fie implementate.
Firme juridice cu 20 de ani de fisiere ale clientilor scanate. Furnizori de servicii de sanatate cu decenii de formulare de internare a pacientilor scanate. Agentii guvernamentale cu inregistrari istorice scanate. Banci cu cereri de imprumut si documente de cont imagine.
Aceste arhive au o caracteristica comuna: documentele sunt stocate ca imagini scanate (PDF raster, TIFF sau JPEG), nu ca documente digitale bazate pe text. Nu exista strat de text de cautat, fara continut lizibil de masina pentru instrumentele standard PII de analizat.
De Ce GDPR se Aplica Arhivelor Scanate
Dreptul la stergere (Articolul 17): Subiectii de date pot solicita stergerea datelor personale. 'Date personale' include datele in orice format — inclusiv datele vizuale intr-o imagine scanata.
Dreptul la acces (Articolul 15): Subiectii de date pot solicita o copie a datelor lor. Organizatia trebuie sa poata identifica si extrage datele din arhivele scanate.
Dreptul la portabilitate (Articolul 20): Datele trebuie sa poata fi furnizate intr-un format structurat si lizibil de masina — necesitand OCR si extractie.
Solutia Tehnica: OCR + Detectia PII
Pasul 1 — Conversia OCR: Procesati PDF-urile bazate pe imagini si TIFF-urile prin Recunoasterea Optica a Caracterelor pentru a extrage continut text. Acuratetea OCR pe documentele de arhiva variaza: documentele de calitate buna ating 98-99%, documentele fotocopiate degradate 85-92%.
Pasul 2 — Detectia PII: Rulati motorul de detectie PII pe textul extras OCR. Detectia se aplica la textul extras, nu la imagine.
Pasul 3 — Stergerea sau anonimizarea: Redactati regiunile de imagine corespunzatoare textului PII detectat pe documentul original.
Surse: Ghidul de Conformitate GDPR pentru Arhive ICO 2024; Orientarile Gestionarii Documentelor ISO 15489-1:2016; Acuratetea si Limitarile OCR NIST 2024