Η Κρυφή Κρίση PII στην Ακαδημαϊκή Έρευνα
Μια ανάλυση 500 εμπειρικών άρθρων που δημοσιεύτηκαν σε 10 κορυφαία επιστημονικά περιοδικά (2020-2024) αποκάλυψε:
- 34% περιείχαν μη ανωνυμοποιημένα στοιχεία συμμετεχόντων σε συμπληρωματικά υλικά
- 18% είχαν αναγνωρίσιμα στιγμιότυπα οθόνης (διευθύνσεις email, usernames)
- 12% δημοσίευσαν ακατέργαστα αρχεία δεδομένων με ψευδώνυμα που αντιστοιχούν σε δημόσια προφίλ
Που Κρύβεται το PII στην Ακαδημαϊκή Δημοσίευση
Ακατέργαστα αρχεία δεδομένων (CSV/Excel): Ερευνητές ανεβάζουν ακατέργαστα δεδομένα σε OSF, Zenodo, Figshare ως "ανωνυμοποιημένα" ενώ περιέχουν μερικώς αναγνωρίσιμες εγγραφές.
Στιγμιότυπα οθόνης: Εικόνες από ερευνητικά εργαλεία, πλατφόρμες κοινωνικής δικτύωσης ή εφαρμογές περιέχουν ορατά ονόματα χρηστών, email, αριθμούς τηλεφώνου.
Παραδείγματα σχολιασμού: Στα NLP/ML datasets, τα παραδείγματα εκπαίδευσης συχνά χρησιμοποιούν πραγματικά δεδομένα.
Αποτελεσματικές Τεχνικές Ανωνυμοποίησης
Για δεδομένα έρευνας ερωτηματολογίου:
- Ψευδωνυμοποίηση με τυχαία ID αντί ονομάτων
- Συγκέντρωση δημογραφικών (ηλικιακές ομάδες αντί ακριβείς ηλικίες)
Για στιγμιότυπα οθόνης:
- OCR + αυτόματη ανίχνευση PII + θόλωση πριν τη δημοσίευση
Πηγές: