anonym.legal

By · Last updated 2026-06-05

Înapoi la BlogGDPR & Conformitate

Documente scanate vechi și GDPR: OCR + date personale

Dreptul GDPR la ștergere se aplică datelor personale „indiferent de format”. PDF-urile bazate pe imagini din arhivele de hârtie nu sunt exceptate.

June 5, 20267 min citire
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Problema arhivelor vechi despre care nimeni nu vorbește

Organizațiile care efectuează audituri de conformitate GDPR descoperă frecvent aceeași categorie de risc ascuns: arhive PDF bazate pe imagini, create înainte de implementarea programelor de digitalizare.

Firme de avocatură cu 20 de ani de dosare scanate ale clienților. Furnizori de servicii medicale cu zeci de ani de formulare de admitere scanate ale pacienților. Agenții guvernamentale cu înregistrări istorice scanate. Bănci cu cereri de credit și documente de cont în format imagine.

Aceste arhive au o caracteristică comună: documentele sunt stocate ca imagini scanate (PDF raster, TIFF sau JPEG), nu ca documente digitale bazate pe text. Nu există un strat de text căutabil, niciun conținut lizibil pentru instrumentele standard de date personale. Pentru un instrument convențional de anonimizare, aceste documente sunt invizibile.

Concepcția greșită obișnuită: „Acestea sunt doar fișiere imagine — GDPR nu se aplică cu adevărat.”

Textul GDPR este explicit. Articolul 17(1) acordă persoanelor vizate dreptul la ștergerea datelor personale. Considerentul 26 confirmă că anonimizarea datelor personale este standardul pentru datele care nu mai sunt legate de o persoană fizică identificabilă. Niciuna dintre aceste prevederi nu include o excepție pentru formatele de imagine derivate din hârtie.

O firmă de avocatură care nu poate răspunde unei cereri de ștergere pentru un client care a fost reprezentat acum 15 ani — deoarece dosarele de acum 15 ani există doar ca PDF-uri imagine — are un decalaj de conformitate GDPR, nu o exceptare.

Cum funcționează detectarea datelor personale din imagini

Pipeline-ul tehnic pentru detectarea datelor personale din documente bazate pe imagini integrează două etape:

Etapa 1: Recunoașterea optică a caracterelor (OCR)

  • Intrare: PDF scanat sau fișier imagine
  • Motorul OCR extrage textul din imaginea scanată
  • Ieșire: text lizibil cu coordonate de poziție
  • Provocare: scrisul de mână, calitatea slabă a scanării, cerneala decolorată și fonturile vechi reduc precizia OCR

Etapa 2: Detectarea NLP a datelor personale

  • Intrare: textul extras prin OCR
  • Recunoașterea entităților denumite (NER) identifică nume de persoane, organizații, locații
  • Potrivirea de tipare identifică CNP-uri, numere de telefon, adrese de e-mail, numere de cont
  • Ieșire: entități PII detectate cu scoruri de încredere și referințe de poziție

Etapa 3: Anonimizare

  • Entitățile detectate sunt anonimizate în textul extras
  • Pentru PDF-uri imagine: ieșirea este un document text anonimizat (imaginea originală nu este modificată — modificarea imaginii necesită instrumente de redactare PDF)
  • Textul anonimizat permite răspunsuri DSAR, îndeplinirea cererilor de ștergere și documentația de conformitate

Calitatea OCR este principala constrângere tehnică. Pentru documente tipărite de bună calitate, motoarele moderne OCR ating o precizie de 98-99% la nivel de caracter. Pentru scriere de mână sau scanări degradate, precizia poate fi de 85-92%. În scopuri de detectare a datelor personale, precizia la nivel de entitate (identificarea corectă a faptului că un nume apare în document, chiar dacă caracterele individuale au erori minore) este de obicei mai mare decât precizia la nivel de caracter.

Procesare practică pentru arhive mari

Pentru organizațiile cu arhive vechi mari, fluxul de lucru operațional:

Faza de inventariere:

  • Catalogarea tuturor arhivelor PDF bazate pe imagini după sistemul sursă și intervalul de date
  • Estimarea volumului și prioritizarea după riscul de ștergere (dosarele orientate spre clienți mai întâi)

Procesare în lot:

  • Procesarea arhivelor în loturi (5.000-10.000 de fișiere per lot este tipic)
  • OCR + detectarea datelor personale rulează asincron
  • Ieșire: rapoarte de detectare per fișier și extrase text anonimizate

Îndeplinirea cererilor de ștergere:

  • Persoana vizată trimite cererea de ștergere cu numele și perioada relevantă
  • Căutarea în extrasele text anonimizate după tokenuri pseudonimizate legate de persoana vizată
  • Identificarea documentelor specifice care conțin înregistrările persoanei vizate
  • Procesarea acelor documente specifice pentru redactare (modificarea PDF-ului imagine original)
  • Documentarea acțiunii de ștergere

Conformitate continuă:

  • Documentele noi scanate procesate prin același pipeline înainte de arhivare
  • Rapoartele de detectare a datelor personale păstrate ca dovezi pentru Evidențele activităților de prelucrare conform GDPR Articolul 30

Caz de utilizare: arhiva de 20 de ani a unei firme de avocatură

O firmă de avocatură care efectua un audit GDPR a descoperit 80.000 de contracte PDF imagine ale clienților scanate între 1998 și 2010. Instrumentele standard de date personale nu au returnat nicio detectare — formatul bazat pe imagini era invizibil.

Problema de conformitate era concretă: 15 foști clienți depuseseră cereri de ștergere în ultimele 12 luni. Răspunsul firmei: „Nu putem confirma că datele dumneavoastră au fost șterse deoarece înregistrările noastre istorice sunt în format imagine pe care nu îl putem procesa.” Acesta nu este un răspuns conform cu GDPR Articolul 17.

Abordarea de procesare:

  • OCR + detectarea datelor personale pe toate cele 80.000 de documente în loturi de 5.000
  • Timp de procesare: aproximativ 3 săptămâni de procesare în lot
  • Rezultat: 80.000 de extrase text anonimizate cu rapoarte de detectare per fișier
  • Index căutabil al entităților detectate legate de ID-urile documentelor

Îndeplinirea cererilor de ștergere după procesare:

  • Timp mediu pentru identificarea documentelor unui anumit subiect de date: 4 minute (căutare în extrasele text anonimizate)
  • Numărul de documente per cerere de ștergere: medie 6-8 documente
  • Redactarea documentelor identificate: 20-30 de minute per cerere

Obligația de conformitate anterior imposibilă: îndeplinită. Cele 15 cereri de ștergere restante au fost rezolvate în 30 de zile de la finalizarea procesării arhivei.

Limitările OCR și gestionarea calității

O evaluare onestă a detectării datelor personale bazate pe OCR pentru documente vechi necesită recunoașterea limitărilor:

Precizia scrierii de mână: Documentele scrise de mână (declarații personale, formulare de cerere completate manual) au o precizie OCR mai scăzută decât documentele tipărite. Detectarea datelor personale în conținut scris de mână necesită ajustarea pragului de încredere.

Calitatea scanării degradate: Documentele scanate la rezoluție scăzută sau cu expunere slabă au o precizie OCR redusă. Pre-procesarea (îmbunătățirea contrastului, corectarea înclinării) poate îmbunătăți rezultatele.

Fonturi și formate neobișnuite: Caracterele tipografice pre-digitale, formatele de documente juridice cu aspect neobișnuit și documentele cu mai multe coloane pot avea o precizie OCR mai scăzută.

Stabilirea pragului de calitate: Pentru documentația de conformitate, este adecvat să clasificăm documentele după încrederea OCR: încredere ridicată (>95% precizie per pagină) potrivită pentru procesare automatizată; încredere medie (80-95%) potrivită pentru procesare automatizată cu revizuire umană a entităților marcate; încredere scăzută (<80%) necesitând revizuire manuală.

Pentru organizațiile cu arhive mari de documente istorice degradate, o abordare hibridă — procesare automatizată pentru documentele cu încredere ridicată, coada de revizuire manuală pentru documentele cu încredere scăzută — oferă un debit practic menținând în același timp calitatea conformității.

Surse:

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.