anonym.legal

By · Last updated 2026-06-05

Πίσω στο BlogGDPR & Συμμόρφωση

GDPR και Παλαιά Σαρωμένα Έγγραφα: OCR + PII

Το δικαίωμα διαγραφής του GDPR εφαρμόζεται σε προσωπικά δεδομένα «ανεξαρτήτως μορφής». Τα αρχεία PDF με εικόνες από παλαιά αρχεία δεν εξαιρούνται.

June 5, 20267 λεπτά ανάγνωσης
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR και Παλαιά Σαρωμένα Αρχεία: OCR για PII

Ενημερώθηκε για το 2026

Οι έλεγχοι GDPR συχνά αποκαλύπτουν τον ίδιο κρυφό κίνδυνο: παλαιά αρχεία PDF βασισμένα σε εικόνες.

Δικηγορικά γραφεία διατηρούν 20 χρόνια σαρωμένων φακέλων πελατών. Νοσοκομεία φυλάσσουν δεκαετίες φορμών ασθενών. Κρατικοί φορείς αποθηκεύουν σαρωμένα αρχεία. Τράπεζες έχουν ψηφιοποιημένους φακέλους δανείων.

Τα αρχεία αυτά μοιράζονται ένα κοινό χαρακτηριστικό. Πρόκειται για εικόνες raster — σαρωμένα PDF, TIFF ή JPEG. Δεν υπάρχει επίπεδο κειμένου. Τα τυπικά εργαλεία PII δεν μπορούν να τα διαβάσουν. Για τα περισσότερα εργαλεία ανωνυμοποίησης, αυτά τα αρχεία δεν υπάρχουν.

Μια συνήθης πεποίθηση: «Αυτά είναι αρχεία εικόνας — ο GDPR δεν εφαρμόζεται.»

Το άρθρο 17(1) του GDPR παρέχει στους ανθρώπους το δικαίωμα διαγραφής. Η αιτιολογική σκέψη 26 αναφέρει ότι η ανωνυμοποίηση αφαιρεί τις προσωπικές πληροφορίες από το πεδίο εφαρμογής. Κανένα από τα δύο δεν προβλέπει εξαίρεση για μορφές εικόνας. Ένα δικηγορικό γραφείο που δεν μπορεί να εκπληρώσει αίτημα διαγραφής για ένα αρχείο πελάτη 15 ετών έχει κενό συμμόρφωσης. Δεν έχει εξαίρεση.

Δείτε την επισκόπηση συμμόρφωσής μας και τις πρακτικές ασφαλείας για το πώς υποστηρίζουμε τον GDPR.

Πώς Λειτουργεί η Αγωγός Ανίχνευσης

Η διαδικασία εκτελείται σε τρία στάδια.

Στάδιο 1 — OCR

Η μηχανή OCR διαβάζει την εικόνα και εξάγει κείμενο. Καταγράφει τη θέση κάθε λέξης. Η έξοδος είναι αναγνώσιμο από μηχανή κείμενο με συντεταγμένες. Η ακρίβεια μειώνεται όταν υπάρχει χειρόγραφο κείμενο, ξεθωριασμένο μελάνι ή παλαιές γραμματοσειρές.

Στάδιο 2 — Ανίχνευση Οντοτήτων NLP

Η Αναγνώριση Ονοματισμένων Οντοτήτων (NER) σαρώνει το κείμενο OCR. Εντοπίζει ονόματα προσώπων, οργανισμούς και τοποθεσίες. Η αντιστοίχιση προτύπων προσθέτει SSN, αριθμούς τηλεφώνου και αριθμούς λογαριασμών. Κάθε εύρημα λαμβάνει βαθμό εμπιστοσύνης.

Στάδιο 3 — Ανωνυμοποίηση

Οι εντοπισμένες οντότητες αντικαθίστανται στην έξοδο κειμένου. Η αρχική εικόνα δεν αλλάζει. Η αλλαγή της εικόνας απαιτεί ξεχωριστά εργαλεία επεξεργασίας. Το ανωνυμοποιημένο κείμενο υποστηρίζει αιτήματα διαγραφής, απαντήσεις DSAR και αρχεία συμμόρφωσης.

Οι σύγχρονες μηχανές OCR επιτυγχάνουν ακρίβεια χαρακτήρων 98–99% σε καθαρές εκτυπωμένες σελίδες. Χειρόγραφο ή υποβαθμισμένες σαρώσεις πέφτουν στο 85–92%. Η ακρίβεια σε επίπεδο οντοτήτων τείνει να είναι υψηλότερη από την ακρίβεια σε επίπεδο χαρακτήρων. Ένα όνομα μπορεί να αναγνωριστεί ακόμα και όταν μερικά γράμματα είναι λανθασμένα.

Το πρακτικό συμπέρασμα: η ακρίβεια OCR επηρεάζει πόσες οντότητες εντοπίζετε. Δεν καθορίζει αν η μέθοδος λειτουργεί. Ακόμα και με ακρίβεια 90%, βρίσκετε τα περισσότερα ονόματα και αριθμούς. Χρειάζονται ακόμα επίπεδα ποιότητας. Η ίδια η μέθοδος είναι αξιόπιστη.

Επεξεργασία Μεγάλου Αρχείου

Τα μεγάλα παλαιά αρχεία ακολουθούν μια ροή εργασίας τεσσάρων φάσεων.

Φάση 1 — Απογραφή: Καταλογογραφήστε όλα τα αρχεία βασισμένα σε εικόνες. Σημειώστε το σύστημα προέλευσης και την ημερολογιακή περίοδο. Δώστε προτεραιότητα στα αρχεία υψηλού κινδύνου διαγραφής. Τα αρχεία που αφορούν πελάτες έρχονται πριν από τα εσωτερικά.

Φάση 2 — Μαζική επεξεργασία: Εκτελέστε OCR και ανίχνευση PII σε παρτίδες. Πέντε έως δέκα χιλιάδες αρχεία ανά παρτίδα είναι συνηθισμένο μέγεθος. Η επεξεργασία εκτελείται τη νύχτα. Η έξοδος είναι μια αναφορά PII και ένα ανωνυμοποιημένο εκτεταμένο κείμενο για κάθε αρχείο.

Φάση 3 — Εκπλήρωση διαγραφής: Το υποκείμενο αποστέλλει αίτημα με το όνομά του και την περίοδο. Αναζητήστε τα tokens τους στα ανωνυμοποιημένα αποσπάσματα. Βρείτε τα αρχεία. Επεξεργαστείτε τα. Καταγράψτε την ενέργεια.

Φάση 4 — Συνεχής συμμόρφωση: Βάλτε νέα σαρωμένα αρχεία στην ίδια αγωγό πριν τα αρχειοθετήσετε. Διατηρήστε τις αναφορές PII ως αποδεικτικά στοιχεία για τα Αρχεία Δραστηριοτήτων Επεξεργασίας σύμφωνα με το Άρθρο 30.

Μελέτη Περίπτωσης: Αρχείο Δικηγορικού Γραφείου

Ο έλεγχος ενός δικηγορικού γραφείου αποκάλυψε 80.000 συμβόλαια πελατών σε PDF με εικόνες, σαρωμένα από το 1998 έως το 2010. Τα τυπικά εργαλεία PII δεν εντόπισαν τίποτα. Η μορφή εικόνας ήταν αόρατη.

Δεκαπέντε πρώην πελάτες είχαν υποβάλει αιτήματα διαγραφής τους προηγούμενους 12 μήνες. Το γραφείο είπε: «Δεν μπορούμε να επιβεβαιώσουμε ότι τα αρχεία σας έχουν διαγραφεί.» Αυτή η απάντηση δεν πληροί το Άρθρο 17 του GDPR.

Τι έκανε το γραφείο:

  • Εκτέλεσε OCR και ανίχνευση PII σε όλα τα 80.000 αρχεία σε παρτίδες των 5.000
  • Η επεξεργασία διήρκεσε περίπου τρεις εβδομάδες
  • Αποτέλεσμα: 80.000 ανωνυμοποιημένα αποσπάσματα κειμένου με αναφορές ανά αρχείο
  • Δημιούργησε ένα αναζητήσιμο ευρετήριο που συνδέει οντότητες με αναγνωριστικά αρχείων

Μετά την επεξεργασία:

  • Εύρεση αρχείων για ένα υποκείμενο: 4 λεπτά κατά μέσο όρο
  • Αρχεία ανά αίτημα: 6–8 κατά μέσο όρο
  • Χρόνος επεξεργασίας ανά αίτημα: 20–30 λεπτά

Όλα τα 15 εκκρεμή αιτήματα επιλύθηκαν εντός 30 ημερών.

Το βασικό σημείο: η υποχρέωση συμμόρφωσης υπήρχε πριν από την επεξεργασία. Το γραφείο απλώς δεν είχε τα εργαλεία για να την εκπληρώσει. Η επεξεργασία βάσει OCR δεν δημιούργησε νέα υποχρέωση. Κατέστησε δυνατή την εκπλήρωση μιας υπάρχουσας.

Όρια OCR και Επίπεδα Ποιότητας

Το χειρόγραφο έχει χαμηλότερη ακρίβεια OCR. Ορίστε χαμηλότερο κατώφλι εμπιστοσύνης πριν από την επεξεργασία χειρόγραφου περιεχομένου.

Η κακή ποιότητα σάρωσης μειώνει τους βαθμούς. Η ενίσχυση αντίθεσης και η διόρθωση κλίσης βοηθούν πριν από το OCR.

Ασυνήθιστες διατάξεις — πολυστήλες σελίδες, παλαιές νομικές γραμματοσειρές — μπορεί επίσης να λαμβάνουν χαμηλότερους βαθμούς.

Ορίστε επίπεδα ποιότητας για εργασίες συμμόρφωσης:

  • Πάνω από 95% ακρίβεια σελίδας: εκτελέστε αυτοματοποιημένη επεξεργασία
  • 80–95%: εκτελέστε αυτοματοποιημένη επεξεργασία, στη συνέχεια ανθρώπινη αναθεώρηση για επισημανμένες οντότητες
  • Κάτω από 80%: στείλτε σε χειροκίνητη αναθεώρηση

Μια διαβαθμισμένη προσέγγιση δίνει στις ρυθμιστικές αρχές μια σαφή απάντηση για το πώς αξιολογήσατε την αξιοπιστία. Τα περισσότερα αυτοματοποιημένα εργαλεία χειρίζονται τα αρχεία υψηλής εμπιστοσύνης. Μια ουρά χειροκίνητης αναθεώρησης χειρίζεται τα υπόλοιπα. Η απόδοση παραμένει υψηλή. Η ποιότητα συμμόρφωσης επίσης.

Ο οδηγός FAQ μας καλύπτει συνήθεις ερωτήσεις σχετικά με την επεξεργασία βάσει OCR και τις απαιτήσεις ελέγχου.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.