Problema arhivelor vechi despre care nimeni nu vorbește

Organizațiile care efectuează audituri de conformitate GDPR descoperă frecvent aceeași categorie de risc ascuns: arhive PDF bazate pe imagini, create înainte de implementarea programelor de digitalizare.

Firme de avocatură cu 20 de ani de dosare scanate ale clienților. Furnizori de servicii medicale cu zeci de ani de formulare de admitere scanate ale pacienților. Agenții guvernamentale cu înregistrări istorice scanate. Bănci cu cereri de credit și documente de cont în format imagine.

Aceste arhive au o caracteristică comună: documentele sunt stocate ca imagini scanate (PDF raster, TIFF sau JPEG), nu ca documente digitale bazate pe text. Nu există un strat de text căutabil, niciun conținut lizibil pentru instrumentele standard de date personale. Pentru un instrument convențional de anonimizare, aceste documente sunt invizibile.

Concepcția greșită obișnuită: „Acestea sunt doar fișiere imagine — GDPR nu se aplică cu adevărat.”

Textul GDPR este explicit. Articolul 17(1) acordă persoanelor vizate dreptul la ștergerea datelor personale. Considerentul 26 confirmă că anonimizarea datelor personale este standardul pentru datele care nu mai sunt legate de o persoană fizică identificabilă. Niciuna dintre aceste prevederi nu include o excepție pentru formatele de imagine derivate din hârtie.

O firmă de avocatură care nu poate răspunde unei cereri de ștergere pentru un client care a fost reprezentat acum 15 ani — deoarece dosarele de acum 15 ani există doar ca PDF-uri imagine — are un decalaj de conformitate GDPR, nu o exceptare.

Cum funcționează detectarea datelor personale din imagini

Pipeline-ul tehnic pentru detectarea datelor personale din documente bazate pe imagini integrează două etape:

Etapa 1: Recunoașterea optică a caracterelor (OCR)

Intrare: PDF scanat sau fișier imagine
Motorul OCR extrage textul din imaginea scanată
Ieșire: text lizibil cu coordonate de poziție
Provocare: scrisul de mână, calitatea slabă a scanării, cerneala decolorată și fonturile vechi reduc precizia OCR

Etapa 2: Detectarea NLP a datelor personale

Intrare: textul extras prin OCR
Recunoașterea entităților denumite (NER) identifică nume de persoane, organizații, locații
Potrivirea de tipare identifică CNP-uri, numere de telefon, adrese de e-mail, numere de cont
Ieșire: entități PII detectate cu scoruri de încredere și referințe de poziție

Etapa 3: Anonimizare

Entitățile detectate sunt anonimizate în textul extras
Pentru PDF-uri imagine: ieșirea este un document text anonimizat (imaginea originală nu este modificată — modificarea imaginii necesită instrumente de redactare PDF)
Textul anonimizat permite răspunsuri DSAR, îndeplinirea cererilor de ștergere și documentația de conformitate

Calitatea OCR este principala constrângere tehnică. Pentru documente tipărite de bună calitate, motoarele moderne OCR ating o precizie de 98-99% la nivel de caracter. Pentru scriere de mână sau scanări degradate, precizia poate fi de 85-92%. În scopuri de detectare a datelor personale, precizia la nivel de entitate (identificarea corectă a faptului că un nume apare în document, chiar dacă caracterele individuale au erori minore) este de obicei mai mare decât precizia la nivel de caracter.

Procesare practică pentru arhive mari

Pentru organizațiile cu arhive vechi mari, fluxul de lucru operațional:

Faza de inventariere:

Catalogarea tuturor arhivelor PDF bazate pe imagini după sistemul sursă și intervalul de date
Estimarea volumului și prioritizarea după riscul de ștergere (dosarele orientate spre clienți mai întâi)

Procesare în lot:

Procesarea arhivelor în loturi (5.000-10.000 de fișiere per lot este tipic)
OCR + detectarea datelor personale rulează asincron
Ieșire: rapoarte de detectare per fișier și extrase text anonimizate

Îndeplinirea cererilor de ștergere:

Persoana vizată trimite cererea de ștergere cu numele și perioada relevantă
Căutarea în extrasele text anonimizate după tokenuri pseudonimizate legate de persoana vizată
Identificarea documentelor specifice care conțin înregistrările persoanei vizate
Procesarea acelor documente specifice pentru redactare (modificarea PDF-ului imagine original)
Documentarea acțiunii de ștergere

Conformitate continuă:

Documentele noi scanate procesate prin același pipeline înainte de arhivare
Rapoartele de detectare a datelor personale păstrate ca dovezi pentru Evidențele activităților de prelucrare conform GDPR Articolul 30

Caz de utilizare: arhiva de 20 de ani a unei firme de avocatură

O firmă de avocatură care efectua un audit GDPR a descoperit 80.000 de contracte PDF imagine ale clienților scanate între 1998 și 2010. Instrumentele standard de date personale nu au returnat nicio detectare — formatul bazat pe imagini era invizibil.

Problema de conformitate era concretă: 15 foști clienți depuseseră cereri de ștergere în ultimele 12 luni. Răspunsul firmei: „Nu putem confirma că datele dumneavoastră au fost șterse deoarece înregistrările noastre istorice sunt în format imagine pe care nu îl putem procesa.” Acesta nu este un răspuns conform cu GDPR Articolul 17.

Abordarea de procesare:

OCR + detectarea datelor personale pe toate cele 80.000 de documente în loturi de 5.000
Timp de procesare: aproximativ 3 săptămâni de procesare în lot
Rezultat: 80.000 de extrase text anonimizate cu rapoarte de detectare per fișier
Index căutabil al entităților detectate legate de ID-urile documentelor

Îndeplinirea cererilor de ștergere după procesare:

Timp mediu pentru identificarea documentelor unui anumit subiect de date: 4 minute (căutare în extrasele text anonimizate)
Numărul de documente per cerere de ștergere: medie 6-8 documente
Redactarea documentelor identificate: 20-30 de minute per cerere

Obligația de conformitate anterior imposibilă: îndeplinită. Cele 15 cereri de ștergere restante au fost rezolvate în 30 de zile de la finalizarea procesării arhivei.

Limitările OCR și gestionarea calității

O evaluare onestă a detectării datelor personale bazate pe OCR pentru documente vechi necesită recunoașterea limitărilor:

Precizia scrierii de mână: Documentele scrise de mână (declarații personale, formulare de cerere completate manual) au o precizie OCR mai scăzută decât documentele tipărite. Detectarea datelor personale în conținut scris de mână necesită ajustarea pragului de încredere.

Calitatea scanării degradate: Documentele scanate la rezoluție scăzută sau cu expunere slabă au o precizie OCR redusă. Pre-procesarea (îmbunătățirea contrastului, corectarea înclinării) poate îmbunătăți rezultatele.

Fonturi și formate neobișnuite: Caracterele tipografice pre-digitale, formatele de documente juridice cu aspect neobișnuit și documentele cu mai multe coloane pot avea o precizie OCR mai scăzută.

Stabilirea pragului de calitate: Pentru documentația de conformitate, este adecvat să clasificăm documentele după încrederea OCR: încredere ridicată (>95% precizie per pagină) potrivită pentru procesare automatizată; încredere medie (80-95%) potrivită pentru procesare automatizată cu revizuire umană a entităților marcate; încredere scăzută (<80%) necesitând revizuire manuală.

Pentru organizațiile cu arhive mari de documente istorice degradate, o abordare hibridă — procesare automatizată pentru documentele cu încredere ridicată, coada de revizuire manuală pentru documentele cu încredere scăzută — oferă un debit practic menținând în același timp calitatea conformității.

Surse:

Articole Asemănătoare

GDPR & Conformitate

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

Începeți Proba Gratuită Vizualizați Funcționalitățile

Documente scanate vechi și GDPR: OCR + date personale

Problema arhivelor vechi despre care nimeni nu vorbește

Cum funcționează detectarea datelor personale din imagini

Procesare practică pentru arhive mari

Caz de utilizare: arhiva de 20 de ani a unei firme de avocatură

Limitările OCR și gestionarea calității

Articole Asemănătoare

Instrumentele PII auto-găzduite eșuează la auditurile de conformitate

Presidio ratează 220+ entități GDPR

Deriva configurației: un risc ascuns GDPR

Pregătit să vă protejați datele?

Documente scanate vechi și GDPR: OCR + date personale

Problema arhivelor vechi despre care nimeni nu vorbește

Cum funcționează detectarea datelor personale din imagini

Procesare practică pentru arhive mari

Caz de utilizare: arhiva de 20 de ani a unei firme de avocatură

Limitările OCR și gestionarea calității

Articole Asemănătoare

Instrumentele PII auto-găzduite eșuează la auditurile de conformitate

Presidio ratează 220+ entități GDPR

Deriva configurației: un risc ascuns GDPR

Pregătit să vă protejați datele?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow