Ενημερώθηκε για το 2026

Οι έλεγχοι GDPR συχνά αποκαλύπτουν τον ίδιο κρυφό κίνδυνο: παλαιά αρχεία PDF βασισμένα σε εικόνες.

Δικηγορικά γραφεία διατηρούν 20 χρόνια σαρωμένων φακέλων πελατών. Νοσοκομεία φυλάσσουν δεκαετίες φορμών ασθενών. Κρατικοί φορείς αποθηκεύουν σαρωμένα αρχεία. Τράπεζες έχουν ψηφιοποιημένους φακέλους δανείων.

Τα αρχεία αυτά μοιράζονται ένα κοινό χαρακτηριστικό. Πρόκειται για εικόνες raster — σαρωμένα PDF, TIFF ή JPEG. Δεν υπάρχει επίπεδο κειμένου. Τα τυπικά εργαλεία PII δεν μπορούν να τα διαβάσουν. Για τα περισσότερα εργαλεία ανωνυμοποίησης, αυτά τα αρχεία δεν υπάρχουν.

Μια συνήθης πεποίθηση: «Αυτά είναι αρχεία εικόνας — ο GDPR δεν εφαρμόζεται.»

Το άρθρο 17(1) του GDPR παρέχει στους ανθρώπους το δικαίωμα διαγραφής. Η αιτιολογική σκέψη 26 αναφέρει ότι η ανωνυμοποίηση αφαιρεί τις προσωπικές πληροφορίες από το πεδίο εφαρμογής. Κανένα από τα δύο δεν προβλέπει εξαίρεση για μορφές εικόνας. Ένα δικηγορικό γραφείο που δεν μπορεί να εκπληρώσει αίτημα διαγραφής για ένα αρχείο πελάτη 15 ετών έχει κενό συμμόρφωσης. Δεν έχει εξαίρεση.

Δείτε την επισκόπηση συμμόρφωσής μας και τις πρακτικές ασφαλείας για το πώς υποστηρίζουμε τον GDPR.

Πώς Λειτουργεί η Αγωγός Ανίχνευσης

Η διαδικασία εκτελείται σε τρία στάδια.

Στάδιο 1 — OCR

Η μηχανή OCR διαβάζει την εικόνα και εξάγει κείμενο. Καταγράφει τη θέση κάθε λέξης. Η έξοδος είναι αναγνώσιμο από μηχανή κείμενο με συντεταγμένες. Η ακρίβεια μειώνεται όταν υπάρχει χειρόγραφο κείμενο, ξεθωριασμένο μελάνι ή παλαιές γραμματοσειρές.

Στάδιο 2 — Ανίχνευση Οντοτήτων NLP

Η Αναγνώριση Ονοματισμένων Οντοτήτων (NER) σαρώνει το κείμενο OCR. Εντοπίζει ονόματα προσώπων, οργανισμούς και τοποθεσίες. Η αντιστοίχιση προτύπων προσθέτει SSN, αριθμούς τηλεφώνου και αριθμούς λογαριασμών. Κάθε εύρημα λαμβάνει βαθμό εμπιστοσύνης.

Στάδιο 3 — Ανωνυμοποίηση

Οι εντοπισμένες οντότητες αντικαθίστανται στην έξοδο κειμένου. Η αρχική εικόνα δεν αλλάζει. Η αλλαγή της εικόνας απαιτεί ξεχωριστά εργαλεία επεξεργασίας. Το ανωνυμοποιημένο κείμενο υποστηρίζει αιτήματα διαγραφής, απαντήσεις DSAR και αρχεία συμμόρφωσης.

Οι σύγχρονες μηχανές OCR επιτυγχάνουν ακρίβεια χαρακτήρων 98–99% σε καθαρές εκτυπωμένες σελίδες. Χειρόγραφο ή υποβαθμισμένες σαρώσεις πέφτουν στο 85–92%. Η ακρίβεια σε επίπεδο οντοτήτων τείνει να είναι υψηλότερη από την ακρίβεια σε επίπεδο χαρακτήρων. Ένα όνομα μπορεί να αναγνωριστεί ακόμα και όταν μερικά γράμματα είναι λανθασμένα.

Το πρακτικό συμπέρασμα: η ακρίβεια OCR επηρεάζει πόσες οντότητες εντοπίζετε. Δεν καθορίζει αν η μέθοδος λειτουργεί. Ακόμα και με ακρίβεια 90%, βρίσκετε τα περισσότερα ονόματα και αριθμούς. Χρειάζονται ακόμα επίπεδα ποιότητας. Η ίδια η μέθοδος είναι αξιόπιστη.

Επεξεργασία Μεγάλου Αρχείου

Τα μεγάλα παλαιά αρχεία ακολουθούν μια ροή εργασίας τεσσάρων φάσεων.

Φάση 1 — Απογραφή: Καταλογογραφήστε όλα τα αρχεία βασισμένα σε εικόνες. Σημειώστε το σύστημα προέλευσης και την ημερολογιακή περίοδο. Δώστε προτεραιότητα στα αρχεία υψηλού κινδύνου διαγραφής. Τα αρχεία που αφορούν πελάτες έρχονται πριν από τα εσωτερικά.

Φάση 2 — Μαζική επεξεργασία: Εκτελέστε OCR και ανίχνευση PII σε παρτίδες. Πέντε έως δέκα χιλιάδες αρχεία ανά παρτίδα είναι συνηθισμένο μέγεθος. Η επεξεργασία εκτελείται τη νύχτα. Η έξοδος είναι μια αναφορά PII και ένα ανωνυμοποιημένο εκτεταμένο κείμενο για κάθε αρχείο.

Φάση 3 — Εκπλήρωση διαγραφής: Το υποκείμενο αποστέλλει αίτημα με το όνομά του και την περίοδο. Αναζητήστε τα tokens τους στα ανωνυμοποιημένα αποσπάσματα. Βρείτε τα αρχεία. Επεξεργαστείτε τα. Καταγράψτε την ενέργεια.

Φάση 4 — Συνεχής συμμόρφωση: Βάλτε νέα σαρωμένα αρχεία στην ίδια αγωγό πριν τα αρχειοθετήσετε. Διατηρήστε τις αναφορές PII ως αποδεικτικά στοιχεία για τα Αρχεία Δραστηριοτήτων Επεξεργασίας σύμφωνα με το Άρθρο 30.

Μελέτη Περίπτωσης: Αρχείο Δικηγορικού Γραφείου

Ο έλεγχος ενός δικηγορικού γραφείου αποκάλυψε 80.000 συμβόλαια πελατών σε PDF με εικόνες, σαρωμένα από το 1998 έως το 2010. Τα τυπικά εργαλεία PII δεν εντόπισαν τίποτα. Η μορφή εικόνας ήταν αόρατη.

Δεκαπέντε πρώην πελάτες είχαν υποβάλει αιτήματα διαγραφής τους προηγούμενους 12 μήνες. Το γραφείο είπε: «Δεν μπορούμε να επιβεβαιώσουμε ότι τα αρχεία σας έχουν διαγραφεί.» Αυτή η απάντηση δεν πληροί το Άρθρο 17 του GDPR.

Τι έκανε το γραφείο:

Εκτέλεσε OCR και ανίχνευση PII σε όλα τα 80.000 αρχεία σε παρτίδες των 5.000
Η επεξεργασία διήρκεσε περίπου τρεις εβδομάδες
Αποτέλεσμα: 80.000 ανωνυμοποιημένα αποσπάσματα κειμένου με αναφορές ανά αρχείο
Δημιούργησε ένα αναζητήσιμο ευρετήριο που συνδέει οντότητες με αναγνωριστικά αρχείων

Μετά την επεξεργασία:

Εύρεση αρχείων για ένα υποκείμενο: 4 λεπτά κατά μέσο όρο
Αρχεία ανά αίτημα: 6–8 κατά μέσο όρο
Χρόνος επεξεργασίας ανά αίτημα: 20–30 λεπτά

Όλα τα 15 εκκρεμή αιτήματα επιλύθηκαν εντός 30 ημερών.

Το βασικό σημείο: η υποχρέωση συμμόρφωσης υπήρχε πριν από την επεξεργασία. Το γραφείο απλώς δεν είχε τα εργαλεία για να την εκπληρώσει. Η επεξεργασία βάσει OCR δεν δημιούργησε νέα υποχρέωση. Κατέστησε δυνατή την εκπλήρωση μιας υπάρχουσας.

Όρια OCR και Επίπεδα Ποιότητας

Το χειρόγραφο έχει χαμηλότερη ακρίβεια OCR. Ορίστε χαμηλότερο κατώφλι εμπιστοσύνης πριν από την επεξεργασία χειρόγραφου περιεχομένου.

Η κακή ποιότητα σάρωσης μειώνει τους βαθμούς. Η ενίσχυση αντίθεσης και η διόρθωση κλίσης βοηθούν πριν από το OCR.

Ασυνήθιστες διατάξεις — πολυστήλες σελίδες, παλαιές νομικές γραμματοσειρές — μπορεί επίσης να λαμβάνουν χαμηλότερους βαθμούς.

Ορίστε επίπεδα ποιότητας για εργασίες συμμόρφωσης:

Πάνω από 95% ακρίβεια σελίδας: εκτελέστε αυτοματοποιημένη επεξεργασία
80–95%: εκτελέστε αυτοματοποιημένη επεξεργασία, στη συνέχεια ανθρώπινη αναθεώρηση για επισημανμένες οντότητες
Κάτω από 80%: στείλτε σε χειροκίνητη αναθεώρηση

Μια διαβαθμισμένη προσέγγιση δίνει στις ρυθμιστικές αρχές μια σαφή απάντηση για το πώς αξιολογήσατε την αξιοπιστία. Τα περισσότερα αυτοματοποιημένα εργαλεία χειρίζονται τα αρχεία υψηλής εμπιστοσύνης. Μια ουρά χειροκίνητης αναθεώρησης χειρίζεται τα υπόλοιπα. Η απόδοση παραμένει υψηλή. Η ποιότητα συμμόρφωσης επίσης.

Ο οδηγός FAQ μας καλύπτει συνήθεις ερωτήσεις σχετικά με την επεξεργασία βάσει OCR και τις απαιτήσεις ελέγχου.

Πηγές

Σχετικά Άρθρα

GDPR & Συμμόρφωση

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

Ξεκινήστε Δωρεάν Δοκιμή Δείτε Χαρακτηριστικά

GDPR και Παλαιά Σαρωμένα Έγγραφα: OCR + PII

Πώς Λειτουργεί η Αγωγός Ανίχνευσης

Επεξεργασία Μεγάλου Αρχείου

Μελέτη Περίπτωσης: Αρχείο Δικηγορικού Γραφείου

Όρια OCR και Επίπεδα Ποιότητας

Πηγές

Σχετικά Άρθρα

Αυτο-Φιλοξενούμενο PII Αποτυγχάνει σε Ελέγχους Συμμόρφωσης

Το Presidio Χάνει 220+ Οντότητες GDPR

Αποκλίσεις Ρυθμίσεων: Κρυφός Κίνδυνος GDPR

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

GDPR και Παλαιά Σαρωμένα Έγγραφα: OCR + PII

GDPR και Παλαιά Σαρωμένα Αρχεία: OCR για PII

Πώς Λειτουργεί η Αγωγός Ανίχνευσης

Επεξεργασία Μεγάλου Αρχείου

Μελέτη Περίπτωσης: Αρχείο Δικηγορικού Γραφείου

Όρια OCR και Επίπεδα Ποιότητας

Πηγές

Σχετικά Άρθρα

Αυτο-Φιλοξενούμενο PII Αποτυγχάνει σε Ελέγχους Συμμόρφωσης

Το Presidio Χάνει 220+ Οντότητες GDPR

Αποκλίσεις Ρυθμίσεων: Κρυφός Κίνδυνος GDPR

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow