Το Κενό που Αφήνει η Διαγραφή Στηλών
Ενημερωμένο για το 2026
Τα ερευνητικά σύνολα δεδομένων μεταφέρονται μεταξύ πανεπιστημίων ως αρχεία CSV. Όταν οι ομάδες ετοιμάζουν ένα CSV για κοινοποίηση, η δουλειά γίνεται με βάση τις στήλες. Εντοπίστε τα προσωπικά στοιχεία. Διαγράψτε ή αντικαταστήστε τα.
Αυτή η μέθοδος λειτουργεί για σταθερά πεδία. Μια στήλη με όνομα "email" περιέχει διευθύνσεις ηλεκτρονικού ταχυδρομείου — διαγράψτε την. Μια στήλη "phone" περιέχει τηλέφωνα — διαγράψτε την. Μια στήλη "participant_name" περιέχει ονόματα — αντικαταστήστε τα με κωδικούς.
Ωστόσο, τα πεδία ελεύθερου κειμένου αποτελούν τυφλό σημείο. Η αφαίρεση επισημασμένων στηλών δεν τα αγγίζει καθόλου.
Ένα ερωτηματολόγιο με 5.000 γραμμές μπορεί να έχει πέντε δομημένες στήλες PII και δεκαπέντε στήλες ελεύθερου κειμένου. Οι δομημένες περιέχουν ονόματα, emails, τηλέφωνα, αναγνωριστικά και χρόνους γέννησης. Οι στήλες ελεύθερου κειμένου περιέχουν σχόλια, σημειώσεις και προτάσεις.
Οι δομημένες στήλες καθαρίζονται. Οι στήλες ελεύθερου κειμένου παραμένουν ανεπεξέργαστες. Αλλά οι άνθρωποι γράφουν πράγματα όπως αυτά τα τρία παραδείγματα.
Πρώτον: «Ο γιατρός μου στο Boston Medical Center, η Dr. Maria Santos, είπε ότι η θεραπεία ήταν νέα.» Δεύτερον: «Αντιμετωπίζω αυτό από το ατύχημά μου το 2019.» Τρίτον: «Μπορείτε να επικοινωνήσετε με την φροντίστριά μου στο margaret.wells@gmail.com για λεπτομέρειες.»
Κάθε καταχώριση αναφέρει ένα πραγματικό πρόσωπο. Μερικές περιλαμβάνουν δεδομένα υγείας ή στοιχεία επικοινωνίας. Τίποτα από αυτά δεν εμφανίζεται σε επικεφαλίδα στήλης. Τίποτα δεν εντοπίζεται με διαγραφή στηλών.
Γιατί Αυτό Αποτυγχάνει στο Πρότυπο του ΓΚΠΔ
Η Αιτιολογική Σκέψη 26 του ΓΚΠΔ ορίζει τα ανώνυμα αρχεία ως εκείνα που δεν μπορούν να συνδεθούν με κανένα πρόσωπο. Ο πήχης είναι ψηλός. Τα αρχεία είναι πραγματικά ανώνυμα μόνο όταν η επαναταυτοποίηση δεν είναι εύλογα δυνατή.
Ένα CSV με καθαρές σταθερές στήλες αλλά ονομαζόμενα πρόσωπα σε ελεύθερο κείμενο δεν περνά αυτό το τεστ. Αυτά τα ονόματα είναι αναγνωρίσιμα. Το σύνολο δεδομένων εξακολουθεί να είναι προσωπικό. Οι κανόνες του Άρθρου 89 του ΓΚΠΔ εξακολουθούν να ισχύουν. Προκύπτουν τρεις κίνδυνοι.
Εξαίρεση έρευνας του Άρθρου 89: Το Άρθρο 89 επιτρέπει στους ερευνητές να επεξεργάζονται προσωπικά δεδομένα για επιστημονικούς σκοπούς με λιγότερες υποχρεώσεις. Αλλά μόνο όπου υπάρχουν «κατάλληλες εγγυήσεις». Η κοινοποίηση αρχείου με PII σε ελεύθερο κείμενο υπό την κάλυψη του Άρθρου 89 αποτελεί νομική αποτυχία.
Έγκριση ηθικής επιτροπής: Τα περισσότερα ΔΕΕ και ηθικές επιτροπές απαιτούν πλήρη ανωνυμοποίηση για κοινοποιούμενα σύνολα δεδομένων. Η μερική εργασία — σταθερές στήλες καθαρισμένες, ελεύθερο κείμενο ανεπεξέργαστο — συνήθως αποτυγχάνει. Η επιτροπή μπορεί να απορρίψει την υποβολή.
Συμφωνίες κοινοποίησης δεδομένων: Οι ΣΚΔ μεταξύ ιδρυμάτων καθορίζουν το απαιτούμενο επίπεδο ανωνυμοποίησης. Η μερική εργασία που δεν πληροί την Αιτιολογική Σκέψη 26 του ΓΚΠΔ μπορεί να παραβιάζει την ΣΚΔ. Δείτε την επισκόπηση νομικής συμμόρφωσης για το πώς αυτό εντάσσεται σε ένα ευρύτερο πρόγραμμα.
Γιατί το Ελεύθερο Κείμενο Είναι Τόσο Δύσκολο να Καθαριστεί
Οι ελεύθερες απαντήσεις ερωτηματολογίων είναι από τους πιο δύσκολους στόχους PII. Ιδού γιατί.
Ονόματα σε πλαίσιο: «Dr. Maria Santos στο Boston Medical Center» απαιτεί αναγνώριση ονομαστών οντοτήτων (NER) για τον εντοπισμό προσώπου και οργανισμού. Οι λίστες λέξεων-κλειδιών δεν μπορούν να το βρουν.
Ονόματα σε αφηγήσεις: «Το αυτοκίνητο του John Henderson χτύπησε το δικό μου» βάζει ένα πραγματικό όνομα μέσα σε μια ιστορία. Είναι πρόσωπο που αναφέρεται εν παρόδω. Μόνο το NER το εντοπίζει.
Μη τυπικές μορφές: Τα στοιχεία επικοινωνίας μπορεί να αναγράφονται ως «επικοινωνήστε μαζί μου στο margaret τελεία wells στο gmail». Τα απλά εργαλεία regex τα χάνουν.
Ειδικοί ερευνητικοί όροι: Οι κλινικές έρευνες συχνά περιέχουν αναγνωριστικά νοσοκομείων, κωδικούς τοποθεσιών και ονόματα τόπων. Αυτά μπορεί να ταυτοποιούν ένα πρόσωπο ακόμα και όταν φαίνονται γενικά.
Άρα η αντιστοίχιση μοτίβων από μόνη της δεν αρκεί. Χρειάζονται εργαλεία βασισμένα σε NLP για πραγματική ανωνυμοποίηση ερωτηματολογίων. Δείτε Ασφάλεια & Συμμόρφωση για τεχνικές επιλογές.
Ένα Πραγματικό Παράδειγμα από Τρία Πανεπιστήμια
Μια ερευνητική ομάδα σε τρία ευρωπαϊκά πανεπιστήμια διεξήγαγε έρευνα εμπειρίας ασθενών. Το σύνολο δεδομένων είχε 5.000 συμμετέχοντες, 3 σταθερές στήλες PII και 8 στήλες ελεύθερου κειμένου. Ο σχεδιασμός ήταν να κοινοποιηθεί το αρχείο μεταξύ των ιδρυμάτων υπό ΣΚΔ και το Άρθρο 89 του ΓΚΠΔ.
Μόνο με διαγραφή στηλών:
- Σταθερές στήλες PII: αφαιρέθηκαν
- Στήλες ελεύθερου κειμένου: παρέμειναν ανεπεξέργαστες
- Ισχυρισμός: «Οι στήλες PII διαγράφηκαν»
- PII που άφησε πίσω: 47 ονομαζόμενα πρόσωπα, 23 διευθύνσεις email σε σχόλια, 18 ονόματα τόπων που μπορούσαν να ταυτοποιήσουν συμμετέχοντες
Με ανίχνευση βασισμένη σε NLP:
- Σταθερές στήλες PII: αντικαταστάθηκαν με συνεπή tokens
- Στήλες ελεύθερου κειμένου: 47 ονόματα αντικαταστάθηκαν, 23 emails καλύφθηκαν, 18 ονόματα τόπων έγιναν γενικά («Boston Medical Center» → «[Healthcare Institution]»)
- Αποτέλεσμα: αρχείο που πληροί την Αιτιολογική Σκέψη 26 του ΓΚΠΔ
- Η ηθική επιτροπή ενέκρινε τη μέθοδο
- Ο ΥΠΔ επιβεβαίωσε τη συμμόρφωση με τη ΣΚΔ
Το χάσμα είναι πραγματικό. Η πρώτη έξοδος φαίνεται καθαρή. Η δεύτερη έξοδος είναι καθαρή.
Ένα Πρωτόκολλο Πέντε Βημάτων Πριν την Κοινοποίηση
Χρησιμοποιήστε αυτά τα βήματα πριν κοινοποιήσετε οποιοδήποτε αρχείο έρευνας ή συνέντευξης.
Βήμα 1: Επισημάνετε κάθε στήλη Χαρακτηρίστε κάθε στήλη ως σταθερή PII, σταθερή μη-PII ή ελεύθερο κείμενο. Καταγράψτε το.
Βήμα 2: Χειριστείτε τα σταθερά PII Διαγράψτε καταχωρίσεις που δεν χρειάζονται για ανάλυση. Αντικαταστήστε καταχωρίσεις που χρειάζονται για σύνδεση εγγραφών. Καταγράψτε τους κωδικούς που χρησιμοποιήθηκαν.
Βήμα 3: Σαρώστε τις στήλες ελεύθερου κειμένου Εκτελέστε ανίχνευση NLP σε όλες τις στήλες ελεύθερου κειμένου. Ελέγξτε κάθε αποτέλεσμα. Επιβεβαιώστε ποια είναι πραγματικά PII.
Βήμα 4: Εφαρμόστε αντικαταστάσεις
Αντικαταστήστε τα επιβεβαιωμένα PII στην έξοδο ελεύθερου κειμένου. Χρησιμοποιήστε σαφείς ετικέτες όπως [PERSON], [EMAIL] ή [LOCATION].
Βήμα 5: Επαληθεύστε και τεκμηριώστε Δειγματοληπτήστε 50–100 γραμμές από την έξοδο. Ελέγξτε χειροκίνητα τις καταχωρίσεις ελεύθερου κειμένου. Γράψτε μια σύντομη περίληψη: εργαλεία που χρησιμοποιήθηκαν, τύποι οντοτήτων που εντοπίστηκαν, στήλες που επεξεργάστηκαν. Μοιραστείτε την μαζί με το αρχείο για ηθική αξιολόγηση.
Αυτό μετατρέπει το «διαγράψαμε τη στήλη ονομάτων» σε μια σαφή, τεκμηριωμένη διαδικασία. Πληροί το Άρθρο 89 του ΓΚΠΔ και τα πρότυπα ανωνυμοποίησης που απαιτούν οι περισσότερες ηθικές επιτροπές. Επισκεφτείτε τον κόμβο docs για σχετικούς οδηγούς.