anonym.legal

By · Last updated 2026-06-04

Πίσω στο BlogΤεχνικά

Αναπαραγώγιμη Απόρρητο: Presets για ML

Η ανωνυμοποίηση δεδομένων εκπαίδευσης ML πρέπει να είναι συνεπής και αναπαραγώγιμη. Αν οι επιστήμονες δεδομένων Α και Β εφαρμόζουν διαφορετικούς τύπους οντοτήτων, τα σύνολα εκπαίδευσης δεν είναι.

June 4, 20266 λεπτά ανάγνωσης
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Αναπαραγώγιμο Απόρρητο: Γιατί οι Ομάδες ML Χρειάζονται Presets, Όχι Μόνο Τεκμηρίωση

Ο DPO ενέκρινε το σχέδιο ανωνυμοποίησης. Καλύπτει τέσσερα στοιχεία: ονόματα, emails, αριθμούς τηλεφώνου και ημερομηνίες γέννησης. Η μέθοδος είναι Αντικατάσταση. Το σχέδιο έχει τέσσερις σελίδες και βρίσκεται στο wiki συμμόρφωσης.

Δώδεκα επιστήμονες δεδομένων το διάβασαν στο kickoff. Ο καθένας ρύθμισε το εργαλείο μόνος του. Μερικοί πρόσθεσαν εθνικά αναγνωριστικά. Άλλοι πρόσθεσαν διευθύνσεις IP. Τρεις άλλαξαν σε Redact. Τρεις μήνες αργότερα, τα σύνολα δεν είναι συνεπή.

Η CNIL έλεγξε αρκετές εταιρείες AI το 2024. Το πρόβλημα: ακατάλληλη χρήση προσωπικών δεδομένων σε σύνολα μοντέλων. Δεν ρώτησαν απλώς αν έγινε ανωνυμοποίηση. Ρώτησαν πόσο συνεπώς εφαρμόστηκε.

Η τεκμηρίωση είναι απαραίτητη. Δεν είναι αρκετή. Η λύση είναι το preset.

Γιατί τα Σύνολα Μοντέλων ML Χρειάζονται τη Δική τους Ρύθμιση

Η δημιουργία συνόλων μοντέλων έχει μοναδικές ανάγκες. Η γενική ανωνυμοποίηση εγγράφων δεν τις μοιράζεται.

Αντικατάσταση, όχι Redact. Μοντέλα εκπαιδευμένα σε κείμενο όπου τα ονόματα γίνονται [REDACTED] μαθαίνουν αυτό το token ως δείκτη θέσης ονόματος. Αυτό βλάπτει το μοντέλο. Η Αντικατάσταση αλλάζει το «Γιώργος Παπαδόπουλος» με «Νίκος Αθανασίου». Το μοντέλο βλέπει πραγματικά μοτίβα ονομάτων. Δεν βλέπει token μάσκας.

Ίδια διαδικασία για όλες τις εγγραφές. Ένα σύνολο όπου το 70% των ονομάτων αντικαθίστανται και το 30% είναι [REDACTED] στέλνει μικτό σήμα. Κάθε εγγραφή πρέπει να περνά από τα ίδια βήματα.

Ίδια λίστα οντοτήτων. Αν το σύνολο περιέχει δεδομένα υγείας, η αφαίρεση ονομάτων αλλά η διατήρηση ημερομηνιών γέννησης σε μερικές εγγραφές δημιουργεί κενά. Και οι δώδεκα επιστήμονες δεδομένων πρέπει να αφαιρούν τους ίδιους τύπους.

Χωρίς υπερβολική αφαίρεση. Η αφαίρεση ημερομηνιών που είναι χρονικές σημάνσεις — όχι ημερομηνίες γέννησης — μειώνει την ποιότητα του συνόλου χωρίς κέρδος συμμόρφωσης. Το εγκεκριμένο preset λέει ακριβώς ποια στοιχεία πρέπει να αφαιρεθούν.

Επαναλαμβανόμενη έξοδος. Αν ένα σύνολο πρέπει να επανεκτελεστεί — ας πούμε, μετά την ανακάλυψη ενός χαμένου τύπου οντότητας — το preset δίνει το ίδιο αποτέλεσμα κάθε φορά. Οι ad-hoc ρυθμίσεις δεν το κάνουν.

Το Πρόβλημα των Δώδεκα Επιστημόνων Δεδομένων

Μια ομάδα ML fintech στην Ευρώπη χρησιμοποιεί σύνολα από αρχεία καταγραφής πελατών. Ο DPO ενέκρινε τον σκοπό — ανίχνευση απάτης — με έναν κανόνα: όλα τα ονόματα πελατών, emails, αριθμοί τηλεφώνου και αναγνωριστικά πληρωμών πρέπει να αντικατασταθούν πριν αρχίσει η εργασία μοντέλου.

Χωρίς presets:

  • Άτομο 1 αφαιρεί ονόματα, emails και αριθμούς τηλεφώνου — αλλά χάνει τα αναγνωριστικά πληρωμών
  • Άτομο 2 συμπεριλαμβάνει αναγνωριστικά πληρωμών αλλά χρησιμοποιεί Redact, όχι Αντικατάσταση
  • Άτομο 3 ακολουθεί ακριβώς το έγγραφο σχεδίου
  • Άτομα 4–12 ποικίλλουν

Το συγχωνευμένο σύνολο είναι εν μέρει μη συμμορφούμενο και εν μέρει υπερβολικά επεξεργασμένο. Ένας DPO δεν μπορεί να το πιστοποιήσει.

Με ένα DPO-εγκεκριμένο preset:

  • Ο DPO δημιουργεί «ML Dev — Ανίχνευση Απάτης» με ακριβείς τύπους οντοτήτων και τη μέθοδο Αντικατάστασης
  • Το preset μεταβιβάζεται και στα δώδεκα άτομα με έναν κανόνα: χρησιμοποιήστε αυτό για όλες τις εργασίες συνόλου
  • Κανείς δεν μπορεί να αλλάξει το preset χωρίς έγκριση DPO

Κάθε άτομο παράγει τώρα την ίδια έξοδο. Το συγχωνευμένο σύνολο είναι συνεπές. Ο ετήσιος έλεγχος AI περνά με μηδενικά ευρήματα. Το προηγούμενο έτος είχε τρία ευρήματα από ασυνεπείς εργασίες συνόλου.

GDPR και ο Νόμος για την AI

Ενημερωμένο για το 2026

Ο Νόμος ΕΕ για την AI τέθηκε πλήρως σε ισχύ τον Αύγουστο 2024. Προσθέτει κανόνες για συστήματα AI που χρησιμοποιούν προσωπικά δεδομένα για εργασίες μοντέλου. Τα υψηλού κινδύνου συστήματα AI πρέπει να τεκμηριώνουν τα σύνολά τους, συμπεριλαμβανομένης της ανωνυμοποίησης που εφαρμόστηκε.

Το Άρθρο 5(1)(β) GDPR — ο κανόνας περιορισμού σκοπού — αποκλείει τη χρήση προσωπικών δεδομένων χωρίς σαφή νομική βάση. Οι υποθέσεις CNIL του 2024 επικεντρώθηκαν σε αυτό το κενό: δεδομένα που συλλέχθηκαν για μια υπηρεσία χρησιμοποιήθηκαν για εργασίες μοντέλου χωρίς έγκυρη βάση ή ανωνυμοποίηση.

Τα presets βοηθούν στην ικανοποίηση και των δύο συνόλων κανόνων:

  • Όνομα και ρύθμιση preset: η τεκμηριωμένη μέθοδος
  • Αρχεία καταγραφής επεξεργασίας: απόδειξη ότι η μέθοδος εφαρμόστηκε
  • Έγκριση DPO: καταγεγραμμένη έγκριση της ρύθμισης

Αυτό δημιουργεί το ίχνος ελέγχου που απαιτούν και οι δύο νόμοι. Για λεπτομέρειες σχετικά με τις υποχρεώσεις Άρθρου 10, δείτε τον οδηγό δεδομένων εκπαίδευσης Νόμου ΕΕ για την AI.

Ρύθμιση Preset για Σύνολα Μοντέλων NLP

Τύποι για συμπερίληψη στα περισσότερα σύνολα μοντέλων NLP:

  • PERSON — Αντικατάσταση με παρόμοια ονόματα
  • EMAIL_ADDRESS — Αντικατάσταση με συνθετικές διευθύνσεις
  • PHONE_NUMBER — Αντικατάσταση με συνθετικούς αριθμούς
  • CREDIT_CARD / IBAN — Αντικατάσταση ή Redact
  • LOCATION — Αντικατάσταση με παρόμοιες τοποθεσίες αν έχει σημασία η τοποθεσία; Redact αν όχι
  • DATE_OF_BIRTH — Redact; η ομαδοποίηση ηλικίας συχνά χρειάζεται

Τύποι που συχνά παραλείπονται:

  • Γενικές ημερομηνίες — οι χρονικές σημάνσεις βοηθούν τα χρονικά μοντέλα
  • Ονόματα οργανισμών — βοηθούν τα μοντέλα αναγνώρισης ονοματισμένων οντοτήτων
  • URLs — βοηθούν τα μοντέλα συνδέσμων και αναφορών

Ο επικεφαλής ML και ο DPO ορίζουν αυτούς τους κανόνες στο εγκεκριμένο preset. Τα μέλη της ομάδας το εφαρμόζουν. Δεν κάνουν επιλογές ρύθμισης.

Τα Presets ως Θεσμική Μνήμη

Πριν τα presets. Η σωστή ρύθμιση οντοτήτων ζούσε στα κεφάλια τριών επιστημόνων δεδομένων. Είχαν εργαστεί μέσα από την αναθεώρηση συμμόρφωσης. Δύο έφυγαν στο Γ' τρίμηνο. Η γνώση έφυγε μαζί τους.

Μετά τα presets. Η ρύθμιση ζει στο «ML Dev — Αρχεία Πελατών v2.1». Το αρχείο καταγραφής εκδόσεων δείχνει πότε δημιουργήθηκε, ποιος το ενέκρινε και τι άλλαξε από την v2.0. Τα νέα μέλη της ομάδας χρησιμοποιούν το preset και αποκτούν όλη τη γνώση που έχει ενσωματωθεί σε αυτό.

Η έκδοση 2.1 πρόσθεσε ανίχνευση IBAN μετά από έλεγχο που διαπίστωσε την έλλειψή της. Η έκδοση 2.0 εγκρίθηκε τον Φεβρουάριο 2025. Το αρχείο καταγραφής είναι πλήρες.

Για τον τρόπο λειτουργίας των αρχείων καταγραφής επεξεργασίας και των ροών αναθεώρησης DPO, δείτε τον οδηγό ανωνυμοποίησης δεδομένων εκπαίδευσης ML GDPR.

Presets έναντι του Μοτίβου CNIL

Οι υποθέσεις AI της CNIL του 2024 έθεσαν ένα σαφές μοτίβο. Ρωτούν όχι μόνο τι αφαιρέθηκε αλλά πώς διαχειρίστηκε. Ένα κοινό preset με αρχείο έγκρισης DPO και αρχεία καταγραφής επεξεργασίας απαντά σε αυτό απευθείας.

Μια ad-hoc ρύθμιση δεν το κάνει. Το ίδιο κενό υπάρχει σε άλλες υποθέσεις ΕΕ DPA που ακολουθούν τη λογική CNIL. Για περισσότερα σχετικά με την προσέγγιση CNIL AI, δείτε τον οδηγό συμμόρφωσης CNIL GDPR AI.

Συμπέρασμα

Η τεκμηρίωση λέει στα μέλη της ομάδας τι να κάνουν. Τα presets το κάνουν εύκολο — και εφαρμόσιμο — να το κάνουν με τον ίδιο τρόπο κάθε φορά.

Για σύνολα μοντέλων ML, η συνέπεια είναι τόσο νομική ανάγκη όσο και τεχνική. Το preset ικανοποιεί και τις δύο ταυτόχρονα.

Οι DPA που εξετάζουν πρακτικές AI θέλουν αποδείξεις ομοιόμορφης ανωνυμοποίησης. Ένα preset που εφαρμόζεται με τον ίδιο τρόπο σε όλες τις εργασίες συνόλου είναι η πιο σαφής απόδειξη που μπορείτε να δώσετε.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.