anonym.legal

By · Last updated 2026-06-05

Πίσω στο BlogΤεχνικά

Κατακερματισμός Μορφών Εγγράφων στα Εργαλεία PII

Μια απόκριση DSAR μπορεί να περιλαμβάνει συμβόλαια Word, τιμολόγια PDF, λίστες πελατών Excel και εξαγωγές CSV. Η χρήση διαφορετικών εργαλείων για κάθε μορφή δημιουργεί κενά συμμόρφωσης.

June 5, 20267 λεπτά ανάγνωσης
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Το Πρόβλημα Πολλαπλών Μορφών στη Συμμόρφωση PII

Ενημερωμένο για το 2026

Ρωτήστε έναν υπεύθυνο συμμόρφωσης ποιες μορφές ανωνυμοποιεί για αποκρίσεις DSAR. Η λίστα είναι πάντα η ίδια: συμβόλαια Word, τιμολόγια PDF, δεδομένα πελατών Excel, εξαγωγές CSV και αρχεία καταγραφής JSON.

Επίσης ρωτήστε ποια εργαλεία χρησιμοποιεί. Η απάντηση είναι συνήθως τρία έως πέντε. Κάθε εργαλείο έχει διαφορετική κάλυψη οντοτήτων. Κάθε ένα έχει διαφορετικές ρυθμίσεις. Κάθε ένα παράγει διαφορετικό αρχείο ελέγχου.

Αυτό είναι κατακερματισμός μορφών. Δημιουργεί πραγματικά κενά συμμόρφωσης.

Γιατί Συμβαίνει ο Κατακερματισμός

Κανένα μεμονωμένο εργαλείο δεν έχει χειριστεί κάθε μορφή παραγωγής με την ίδια ποιότητα. Εξειδικευμένα εργαλεία εμφανίστηκαν για κάθε μορφή. Ένα για PDF. Ένα για υπολογιστικά φύλλα. Μια μακροεντολή για CSV. Κάθε ένα έχει τη δική του λίστα οντοτήτων. Κανένα δεν μοιράζεται ένα αρχείο ελέγχου.

Το αποτέλεσμα είναι προβλέψιμο. Μια απόκριση DSAR περιλαμβάνει πολλούς τύπους αρχείων. Πολλά εργαλεία την επεξεργάζονται. Κάθε εργαλείο χρησιμοποιεί διαφορετικά πρότυπα. Η οντότητα Χ εντοπίζεται στο PDF αλλά χάνεται στο αρχείο Excel. Οι έλεγχοι DPA αποκαλύπτουν αυτή την ασυνέπεια.

Τεχνικές Προκλήσεις Ανά Μορφή

Κάθε μορφή δημιουργεί τα δικά της προβλήματα ανίχνευσης.

PDF

Τα PDF έρχονται σε δύο τύπους: αυτόχθονο κείμενο και εικόνες από σαρωτή. Τα σαρωμένα PDF χρειάζονται πρώτα OCR. Το OCR εισάγει σφάλματα. Τα αυτόχθονα PDF συχνά αποθηκεύουν κάθε λέξη ως ξεχωριστό αντικείμενο κειμένου. Αυτό σπάει την ανίχνευση οντοτήτων σε όρια λέξεων. Οι διατάξεις πολλαπλών στηλών χρειάζονται ανακατασκευή σειράς ανάγνωσης πριν μπορέσει να ξεκινήσει η ανάλυση.

Word (DOCX)

Τα αρχεία DOCX κρατούν κείμενο σε XML. Αλλά και σε κεφαλίδες, υποσέλιδα, σχόλια, παρακολουθούμενες αλλαγές και πλαίσια κειμένου. Μια διεύθυνση επικεφαλίδας στην κεφαλίδα σελίδας είναι PII. Τα περισσότερα εργαλεία την χάνουν. Οι παρακολουθούμενες αλλαγές μπορούν να κρατούν διαγραμμένα PII. Αυτό το κείμενο είναι αόρατο στην προβολή αλλά παρόν στο αρχείο.

Excel (XLSX)

Το Excel αποθηκεύει PII σε οποιοδήποτε κελί σε εκατοντάδες στήλες και χιλιάδες γραμμές. Κεφαλίδες στηλών όπως «ΑΦΜ» ή «Email» δίνουν πλαίσιο που τα μοντέλα NER χάνουν από το αρχικό κείμενο. Ημερομηνίες και αριθμοί ΑΦΜ αποθηκεύονται συχνά ως αριθμοί. Πεδία ελεύθερου κειμένου όπως «σημειώσεις διευθυντή» περιέχουν μη δομημένα PII. Εργαλεία βασισμένα σε στήλες παραλείπουν αυτά τα πεδία.

CSV

Το CSV στερείται τη δομή του Excel. Πεδία ελεύθερου κειμένου σε στήλες «σημειώσεων» αναμειγνύουν PII με άλλο περιεχόμενο. Προβλήματα κωδικοποίησης — UTF-8 έναντι Latin-1 — προκαλούν αποτυχίες για μη-ASCII χαρακτήρες σε ευρωπαϊκά ονόματα και διευθύνσεις.

JSON

Το ένθετο JSON θάβει τα PII βαθιά: user.address.street.line1. Τα arrays χρειάζονται επανάληψη. Το ίδιο όνομα πεδίου μπορεί να κρατά διαφορετικούς τύπους δεδομένων σε διαφορετικά αντικείμενα. Η καλή ανίχνευση χρειάζεται ταυτόχρονη επίγνωση σχήματος και ανάλυση περιεχομένου.

Η Ασυνέπεια Είναι Νομικός Κίνδυνος

Ορίστε ένα συγκεκριμένο σενάριο DSAR κατά τον GDPR.

Ένα υποκείμενο δεδομένων ζητά όλα τα προσωπικά δεδομένα που κρατούνται γι' αυτό. Η ομάδα συμμόρφωσης βρίσκει αυτά τα αρχεία:

  • 3 έγγραφα Word (συμβόλαια, αλληλογραφία).
  • 2 έγγραφα PDF (τιμολόγια, αντίγραφα υποστήριξης).
  • 1 υπολογιστικό φύλλο Excel (δεδομένα λογαριασμού πελάτη).
  • 1 εξαγωγή CSV (αρχεία καταγραφής πρόσβασης συστήματος).

Χρησιμοποιούν το Εργαλείο Α για PDF. Το Εργαλείο Β για Word. Μια μακροεντολή για XLSX. Χειροκίνητη αναθεώρηση για CSV. Κάθε εργαλείο έχει διαφορετική κάλυψη οντοτήτων.

Το υποκείμενο δεδομένων λαμβάνει το ανωνυμοποιημένο πακέτο. Η στήλη «σημειώσεις διευθυντή» του Excel δεν επεξεργάστηκε. Η διεύθυνση επικεφαλίδας του Word χάθηκε. Και τα δύο περιέχουν PII που το υποκείμενο δεδομένων ζήτησε να ανωνυμοποιηθούν.

Βάσει του Άρθρου 15 GDPR (δικαίωμα πρόσβασης) ή του Άρθρου 17 (δικαίωμα διαγραφής), αυτή είναι ελλιπής απόκριση DSAR. Αν το υποκείμενο δεδομένων ή ένας ρυθμιστής ανακαλύψει το κενό, η ασυνεπής χρήση εργαλείων αποτελεί τεκμηριωμένο παράγοντα.

Η Περίπτωση για Συνεπές Πρότυπο

Η ισχυρή συμμόρφωση DSAR δεν απαριθμεί απλώς ποιους τύπους PII να ανωνυμοποιεί. Απαιτεί το ίδιο πρότυπο σε κάθε μορφή στο σύνολο απόκρισης.

Αυτό σημαίνει:

  • Ίδιοι τύποι οντοτήτων ελέγχονται σε Word, PDF, Excel, CSV και JSON.
  • Ίδια κατώφλια εμπιστοσύνης εφαρμόζονται σε όλα τα αρχεία.
  • Ίδια tokens αντικατάστασης χρησιμοποιούνται. Αν το «Γιώργος Παπαδόπουλος» εμφανίζεται σε τρία έγγραφα, ένα token αντικαθιστά το όνομα και στα τρία.
  • Ένα αρχείο ελέγχου καλύπτει όλες τις μορφές.

Μια λύση μιας πλατφόρμας το κάνει αυτό δυνατό μέσω presets. Ένα preset «DSAR Άτομα ΕΕ» ελέγχει τους ίδιους 32 τύπους οντοτήτων. Εκτελείται σε ένα συμβόλαιο PDF, μια εγγραφή Excel και ένα αρχείο καταγραφής CSV. Η ίδια μηχανή επεξεργάζεται και τα τρία.

Για περισσότερα σχετικά με τον τρόπο λειτουργίας των presets σε εργασίες παρτίδας, δείτε τον οδηγό μας για ομαδική επεξεργασία GDPR DSAR σε κλίμακα.

Ομαδική Επεξεργασία Συνόλων Μικτών Μορφών

Η συμμόρφωση DSAR σε κλίμακα σημαίνει επεξεργασία φακέλων μικτών μορφών ως σύνολο.

Είσοδος: Ένας φάκελος με 15 αρχεία — PDF, DOCX, XLSX, CSV — που αντιπροσωπεύουν όλα τα δεδομένα που κρατούνται για ένα υποκείμενο δεδομένων.

Βήματα επεξεργασίας:

  • Ανίχνευση της μορφής κάθε αρχείου.
  • Εφαρμογή του κατάλληλου αναλυτή. Εξαγωγή κειμένου PDF. Ανάλυση XML DOCX. Επανάληψη κελιών XLSX. Ανάλυση πεδίων CSV.
  • Εκτέλεση της ίδιας αγωγής NLP σε εξαχθέν κείμενο από όλα τα αρχεία.
  • Εφαρμογή του ίδιου preset σε κάθε αρχείο της παρτίδας.
  • Χρήση κοινής δεξαμενής tokens. Το ίδιο όνομα λαμβάνει το ίδιο token αντικατάστασης σε όλα τα 15 αρχεία.

Έξοδος:

  • Ανωνυμοποιημένες εκδόσεις και των 15 αρχείων στις αρχικές τους μορφές.
  • Μια ενιαία έκθεση ελέγχου πολλαπλών μορφών. Εμφανίζει κάθε εντοπισμένη οντότητα, το έγγραφο προέλευσής της, τον βαθμό εμπιστοσύνης και την ενέργεια που πραγματοποιήθηκε.

Αυτή η έκθεση ελέγχου είναι το έγγραφο συμμόρφωσης. Αποδεικνύει ότι και τα 15 αρχεία επεξεργάστηκαν με το ίδιο πρότυπο. Για έλεγχο DPA, αυτό είναι πολύ ισχυρότερο από αποσπασματική χρήση εργαλείων.

Σχετικό: πρόληψη PII σε πραγματικό χρόνο για διαρροές δεδομένων AI.

Γνωστοί Περιορισμοί Ενοποιημένων Αγωγών

Η ενοποίηση μορφών λύνει τον κατακερματισμό. Αλλά εισάγει τους δικούς της περιορισμούς.

Πιστότητα μετατροπής: Η μετατροπή DOCX σε μορφή επεξεργασίας και πίσω μπορεί να χάσει ιστορικό παρακολουθούμενων αλλαγών ή να καταστρέψει ενσωματωμένα αντικείμενα. Τα νομικά έγγραφα χρειάζονται επιπλέον επικύρωση μετά την επεξεργασία.

Συντήρηση ανά μορφή: Οι αναγνωριστές οντοτήτων για CSV διαφέρουν από εκείνους για σαρωμένες φόρμες. Μια «ενοποιημένη» αγωγή εξακολουθεί να χρειάζεται προεπεξεργασία ανά μορφή. Αυτή η προεπεξεργασία χρειάζεται ενημερώσεις καθώς οι μορφές εξελίσσονται.

Ακρίβεια σε ασυνήθιστες μορφές: Τα περισσότερα μοντέλα NLP εκπαιδεύονται σε κείμενο ιστού και κοινά έγγραφα γραφείου. Παλαιές μορφές — παλιά αρχεία EDI, προσαρμοσμένα σχήματα XML, μεταδεδομένα CAD — συχνά παράγουν χειρότερη ακρίβεια από ό,τι υποδηλώνουν τα benchmarks.

Μη ανακατασκευάσιμες μορφές: Ορισμένοι τύποι PDF και αρχεία μόνο εικόνας δεν μπορούν να ανωνυμοποιηθούν επί τόπου. Χρειάζονται οπτική απόκρυψη. Η οπτική απόκρυψη καταστρέφει τη μηχανικά αναγνώσιμη δομή. Αν χρειάζεστε αναζήτηση ή ευρετηρίαση μετά την ανωνυμοποίηση, αυτό μπορεί να υπολείπεται.

Πρακτική Ροή Εργασίας DSAR

Για ομάδες συμμόρφωσης με τακτικούς όγκους DSAR:

  1. Συλλέξτε όλα τα έγγραφα για το υποκείμενο δεδομένων
  2. Δημιουργήστε μια παρτίδα DSAR — σύρετε όλα τα αρχεία, ανεξαρτήτως μορφής
  3. Επιλέξτε το preset «DSAR Άτομα ΕΕ»
  4. Εκτελέστε την παρτίδα
  5. Κατεβάστε τις ανωνυμοποιημένες εξόδους και την ενοποιημένη έκθεση ελέγχου
  6. Ελέγξτε δύο ή τρία έγγραφα από την έξοδο
  7. Συσκευάστε τα ανωνυμοποιημένα έγγραφα για την απόκριση στο υποκείμενο δεδομένων
  8. Επισυνάψτε την έκθεση ελέγχου στην εγγραφή υπόθεσης DSAR

Το βήμα 1 (χειροκίνητη συλλογή) εξακολουθεί να είναι το κύριο κόστος χρόνου. Τα βήματα 2 έως 8 διαρκούν κάτω από 10 λεπτά για μια τυπική παρτίδα. Η έκθεση ελέγχου από το βήμα 5 ικανοποιεί την αρχή λογοδοσίας του GDPR.


Το anonym.legal χειρίζεται DOCX, PDF, XLSX, CSV και JSON. Κάθε αρχείο χρησιμοποιεί το ίδιο preset. Μία έκθεση ελέγχου καλύπτει την παρτίδα.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.