Το Πρόβλημα ML Training + GDPR
Η εκπαίδευση ML models σε προσωπικά δεδομένα απαιτεί νομική βάση (Άρθρο 6 GDPR). Ακόμα και εάν έχετε νομική βάση για αρχική συλλογή, η εκπαίδευση ML είναι «δευτερεύουσα επεξεργασία» — χρειάζεται ξεχωριστή νομική βάση ή συγκατάθεση.
Τεχνικές Ανωνυμοποίησης για ML Datasets
Μέθοδος 1: Entity Replacement Αντικαθιστά PERSON, DATE, LOCATION με τυχαία τιμές ίδιου τύπου:
- «Η Μαρία Παπαδοπούλου» → «Η Αλεξάνδρα Γεωργίου»
- «στις 15 Ιανουαρίου 2023» → «στις 7 Απριλίου 2021»
Πλεονέκτημα: Διατηρεί δομή γλώσσας. Μειονέκτημα: Απαιτεί βιβλιοθήκες ψευδώνυμων τιμών.
Μέθοδος 2: Redaction + Masking Αντικαθιστά με tags: «Η [ΟΝΟΜΑ] υπέβαλε αίτηση...»
Πλεονέκτημα: Απλό, διατηρεί tags. Μειονέκτημα: Model εκπαιδεύεται να αγνοεί tags.
Μέθοδος 3: Synthetic Data Generation Δημιουργία τελείως συνθετικών δεδομένων που μοιάζουν με πραγματικά αλλά δεν αντιστοιχούν σε κανέναν.
GDPR Νομική Βάση για ML Training
Επιλογή 1: Άρθρο 6(4) — Συμβατή δευτερεύουσα επεξεργασία Εάν ML training είναι συμβατό με αρχικό σκοπό + τεχνικά μέτρα (ανωνυμοποίηση).
Επιλογή 2: Άρθρο 89 — Επιστημονικός/ερευνητικός σκοπός Εάν ML εκπαίδευση = έρευνα, με διασφαλίσεις.
Πηγές: