anonym.legal

By · Last updated 2026-06-05

Πίσω στο BlogGDPR & Συμμόρφωση

Ελεύθερο Κείμενο PII σε CSV: Πέρα από τη Διαγραφή Στηλών

Τα αρχεία CSV ερωτηματολογίων περιέχουν προσωπικά δεδομένα όχι μόνο σε δομημένες στήλες αλλά και σε ελεύθερα πεδία κειμένου. Η διαγραφή στηλών χάνει τα PII που παραβιάζουν τον ΓΚΠΔ — και την έγκριση ηθικής επιτροπής.

June 5, 20267 λεπτά ανάγνωσης
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Το Κενό που Αφήνει η Διαγραφή Στηλών

Ενημερωμένο για το 2026

Τα ερευνητικά σύνολα δεδομένων μεταφέρονται μεταξύ πανεπιστημίων ως αρχεία CSV. Όταν οι ομάδες ετοιμάζουν ένα CSV για κοινοποίηση, η δουλειά γίνεται με βάση τις στήλες. Εντοπίστε τα προσωπικά στοιχεία. Διαγράψτε ή αντικαταστήστε τα.

Αυτή η μέθοδος λειτουργεί για σταθερά πεδία. Μια στήλη με όνομα "email" περιέχει διευθύνσεις ηλεκτρονικού ταχυδρομείου — διαγράψτε την. Μια στήλη "phone" περιέχει τηλέφωνα — διαγράψτε την. Μια στήλη "participant_name" περιέχει ονόματα — αντικαταστήστε τα με κωδικούς.

Ωστόσο, τα πεδία ελεύθερου κειμένου αποτελούν τυφλό σημείο. Η αφαίρεση επισημασμένων στηλών δεν τα αγγίζει καθόλου.

Ένα ερωτηματολόγιο με 5.000 γραμμές μπορεί να έχει πέντε δομημένες στήλες PII και δεκαπέντε στήλες ελεύθερου κειμένου. Οι δομημένες περιέχουν ονόματα, emails, τηλέφωνα, αναγνωριστικά και χρόνους γέννησης. Οι στήλες ελεύθερου κειμένου περιέχουν σχόλια, σημειώσεις και προτάσεις.

Οι δομημένες στήλες καθαρίζονται. Οι στήλες ελεύθερου κειμένου παραμένουν ανεπεξέργαστες. Αλλά οι άνθρωποι γράφουν πράγματα όπως αυτά τα τρία παραδείγματα.

Πρώτον: «Ο γιατρός μου στο Boston Medical Center, η Dr. Maria Santos, είπε ότι η θεραπεία ήταν νέα.» Δεύτερον: «Αντιμετωπίζω αυτό από το ατύχημά μου το 2019.» Τρίτον: «Μπορείτε να επικοινωνήσετε με την φροντίστριά μου στο margaret.wells@gmail.com για λεπτομέρειες.»

Κάθε καταχώριση αναφέρει ένα πραγματικό πρόσωπο. Μερικές περιλαμβάνουν δεδομένα υγείας ή στοιχεία επικοινωνίας. Τίποτα από αυτά δεν εμφανίζεται σε επικεφαλίδα στήλης. Τίποτα δεν εντοπίζεται με διαγραφή στηλών.

Γιατί Αυτό Αποτυγχάνει στο Πρότυπο του ΓΚΠΔ

Η Αιτιολογική Σκέψη 26 του ΓΚΠΔ ορίζει τα ανώνυμα αρχεία ως εκείνα που δεν μπορούν να συνδεθούν με κανένα πρόσωπο. Ο πήχης είναι ψηλός. Τα αρχεία είναι πραγματικά ανώνυμα μόνο όταν η επαναταυτοποίηση δεν είναι εύλογα δυνατή.

Ένα CSV με καθαρές σταθερές στήλες αλλά ονομαζόμενα πρόσωπα σε ελεύθερο κείμενο δεν περνά αυτό το τεστ. Αυτά τα ονόματα είναι αναγνωρίσιμα. Το σύνολο δεδομένων εξακολουθεί να είναι προσωπικό. Οι κανόνες του Άρθρου 89 του ΓΚΠΔ εξακολουθούν να ισχύουν. Προκύπτουν τρεις κίνδυνοι.

Εξαίρεση έρευνας του Άρθρου 89: Το Άρθρο 89 επιτρέπει στους ερευνητές να επεξεργάζονται προσωπικά δεδομένα για επιστημονικούς σκοπούς με λιγότερες υποχρεώσεις. Αλλά μόνο όπου υπάρχουν «κατάλληλες εγγυήσεις». Η κοινοποίηση αρχείου με PII σε ελεύθερο κείμενο υπό την κάλυψη του Άρθρου 89 αποτελεί νομική αποτυχία.

Έγκριση ηθικής επιτροπής: Τα περισσότερα ΔΕΕ και ηθικές επιτροπές απαιτούν πλήρη ανωνυμοποίηση για κοινοποιούμενα σύνολα δεδομένων. Η μερική εργασία — σταθερές στήλες καθαρισμένες, ελεύθερο κείμενο ανεπεξέργαστο — συνήθως αποτυγχάνει. Η επιτροπή μπορεί να απορρίψει την υποβολή.

Συμφωνίες κοινοποίησης δεδομένων: Οι ΣΚΔ μεταξύ ιδρυμάτων καθορίζουν το απαιτούμενο επίπεδο ανωνυμοποίησης. Η μερική εργασία που δεν πληροί την Αιτιολογική Σκέψη 26 του ΓΚΠΔ μπορεί να παραβιάζει την ΣΚΔ. Δείτε την επισκόπηση νομικής συμμόρφωσης για το πώς αυτό εντάσσεται σε ένα ευρύτερο πρόγραμμα.

Γιατί το Ελεύθερο Κείμενο Είναι Τόσο Δύσκολο να Καθαριστεί

Οι ελεύθερες απαντήσεις ερωτηματολογίων είναι από τους πιο δύσκολους στόχους PII. Ιδού γιατί.

Ονόματα σε πλαίσιο: «Dr. Maria Santos στο Boston Medical Center» απαιτεί αναγνώριση ονομαστών οντοτήτων (NER) για τον εντοπισμό προσώπου και οργανισμού. Οι λίστες λέξεων-κλειδιών δεν μπορούν να το βρουν.

Ονόματα σε αφηγήσεις: «Το αυτοκίνητο του John Henderson χτύπησε το δικό μου» βάζει ένα πραγματικό όνομα μέσα σε μια ιστορία. Είναι πρόσωπο που αναφέρεται εν παρόδω. Μόνο το NER το εντοπίζει.

Μη τυπικές μορφές: Τα στοιχεία επικοινωνίας μπορεί να αναγράφονται ως «επικοινωνήστε μαζί μου στο margaret τελεία wells στο gmail». Τα απλά εργαλεία regex τα χάνουν.

Ειδικοί ερευνητικοί όροι: Οι κλινικές έρευνες συχνά περιέχουν αναγνωριστικά νοσοκομείων, κωδικούς τοποθεσιών και ονόματα τόπων. Αυτά μπορεί να ταυτοποιούν ένα πρόσωπο ακόμα και όταν φαίνονται γενικά.

Άρα η αντιστοίχιση μοτίβων από μόνη της δεν αρκεί. Χρειάζονται εργαλεία βασισμένα σε NLP για πραγματική ανωνυμοποίηση ερωτηματολογίων. Δείτε Ασφάλεια & Συμμόρφωση για τεχνικές επιλογές.

Ένα Πραγματικό Παράδειγμα από Τρία Πανεπιστήμια

Μια ερευνητική ομάδα σε τρία ευρωπαϊκά πανεπιστήμια διεξήγαγε έρευνα εμπειρίας ασθενών. Το σύνολο δεδομένων είχε 5.000 συμμετέχοντες, 3 σταθερές στήλες PII και 8 στήλες ελεύθερου κειμένου. Ο σχεδιασμός ήταν να κοινοποιηθεί το αρχείο μεταξύ των ιδρυμάτων υπό ΣΚΔ και το Άρθρο 89 του ΓΚΠΔ.

Μόνο με διαγραφή στηλών:

  • Σταθερές στήλες PII: αφαιρέθηκαν
  • Στήλες ελεύθερου κειμένου: παρέμειναν ανεπεξέργαστες
  • Ισχυρισμός: «Οι στήλες PII διαγράφηκαν»
  • PII που άφησε πίσω: 47 ονομαζόμενα πρόσωπα, 23 διευθύνσεις email σε σχόλια, 18 ονόματα τόπων που μπορούσαν να ταυτοποιήσουν συμμετέχοντες

Με ανίχνευση βασισμένη σε NLP:

  • Σταθερές στήλες PII: αντικαταστάθηκαν με συνεπή tokens
  • Στήλες ελεύθερου κειμένου: 47 ονόματα αντικαταστάθηκαν, 23 emails καλύφθηκαν, 18 ονόματα τόπων έγιναν γενικά («Boston Medical Center» → «[Healthcare Institution]»)
  • Αποτέλεσμα: αρχείο που πληροί την Αιτιολογική Σκέψη 26 του ΓΚΠΔ
  • Η ηθική επιτροπή ενέκρινε τη μέθοδο
  • Ο ΥΠΔ επιβεβαίωσε τη συμμόρφωση με τη ΣΚΔ

Το χάσμα είναι πραγματικό. Η πρώτη έξοδος φαίνεται καθαρή. Η δεύτερη έξοδος είναι καθαρή.

Ένα Πρωτόκολλο Πέντε Βημάτων Πριν την Κοινοποίηση

Χρησιμοποιήστε αυτά τα βήματα πριν κοινοποιήσετε οποιοδήποτε αρχείο έρευνας ή συνέντευξης.

Βήμα 1: Επισημάνετε κάθε στήλη Χαρακτηρίστε κάθε στήλη ως σταθερή PII, σταθερή μη-PII ή ελεύθερο κείμενο. Καταγράψτε το.

Βήμα 2: Χειριστείτε τα σταθερά PII Διαγράψτε καταχωρίσεις που δεν χρειάζονται για ανάλυση. Αντικαταστήστε καταχωρίσεις που χρειάζονται για σύνδεση εγγραφών. Καταγράψτε τους κωδικούς που χρησιμοποιήθηκαν.

Βήμα 3: Σαρώστε τις στήλες ελεύθερου κειμένου Εκτελέστε ανίχνευση NLP σε όλες τις στήλες ελεύθερου κειμένου. Ελέγξτε κάθε αποτέλεσμα. Επιβεβαιώστε ποια είναι πραγματικά PII.

Βήμα 4: Εφαρμόστε αντικαταστάσεις Αντικαταστήστε τα επιβεβαιωμένα PII στην έξοδο ελεύθερου κειμένου. Χρησιμοποιήστε σαφείς ετικέτες όπως [PERSON], [EMAIL] ή [LOCATION].

Βήμα 5: Επαληθεύστε και τεκμηριώστε Δειγματοληπτήστε 50–100 γραμμές από την έξοδο. Ελέγξτε χειροκίνητα τις καταχωρίσεις ελεύθερου κειμένου. Γράψτε μια σύντομη περίληψη: εργαλεία που χρησιμοποιήθηκαν, τύποι οντοτήτων που εντοπίστηκαν, στήλες που επεξεργάστηκαν. Μοιραστείτε την μαζί με το αρχείο για ηθική αξιολόγηση.

Αυτό μετατρέπει το «διαγράψαμε τη στήλη ονομάτων» σε μια σαφή, τεκμηριωμένη διαδικασία. Πληροί το Άρθρο 89 του ΓΚΠΔ και τα πρότυπα ανωνυμοποίησης που απαιτούν οι περισσότερες ηθικές επιτροπές. Επισκεφτείτε τον κόμβο docs για σχετικούς οδηγούς.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.