anonym.legal

By · Last updated 2026-06-05

Πίσω στο BlogΤεχνικά

Το Πρόβλημα Ακρίβειας 22,7% του Presidio

Benchmark του 2024 διαπίστωσε ότι το αναγνωριστικό ονομάτων του Presidio επιτυγχάνει ακρίβεια 22,7% σε επιχειρηματικά έγγραφα — δηλαδή το 77,3% των ανιχνεύσεων είναι ψευδώς θετικά.

June 5, 20267 λεπτά ανάγνωσης
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Το Πρόβλημα Ακρίβειας 22,7% του Presidio: Γιατί τα Ψευδώς Θετικά Καταστρέφουν τα Αποτελέσματα Ανωνυμοποίησης

Τα ψευδώς θετικά στην ανίχνευση PII δεν είναι μικρή ενόχληση. Όταν το 77,3% αυτού που το εργαλείο σας επισημαίνει ως «ονόματα προσώπων» δεν είναι ονόματα προσώπων, δεν προστατεύετε την ιδιωτικότητα — καταστρέφετε δεδομένα.

Μια μελέτη benchmark του 2024 για το προεπιλεγμένο μοντέλο NER (Αναγνώριση Ονομαστικών Οντοτήτων) του Microsoft Presidio αξιολόγησε την ακρίβεια σε επιχειρηματικά έγγραφα: οικονομικές εκθέσεις, αλληλογραφία πελατών, τεκμηρίωση προϊόντων και εισιτήρια υποστήριξης. Το αποτέλεσμα: ακρίβεια 22,7% για ανίχνευση ονομάτων προσώπων.

Αυτό σημαίνει ότι για κάθε 100 ανιχνεύσεις που επισημαίνονται ως ονόματα προσώπων:

  • 23 είναι πραγματικά ονόματα προσώπων (σωστά ανιχνευμένα)
  • 77 είναι ψευδώς θετικά (ονόματα προϊόντων, εταιρειών, τόπων, αναφορές εμπορικών σημάτων)

Γιατί Συμβαίνει Αυτό

Το προεπιλεγμένο αναγνωριστικό ονομάτων του Presidio χρησιμοποιεί το μοντέλο en_core_web_lg της spaCy για NER. Αυτό το μοντέλο εκπαιδεύτηκε κυρίως σε κείμενα ειδήσεων — όπου τα περισσότερα κύρια ονόματα είναι στην πραγματικότητα πρόσωπα, οργανισμοί ή τόποι που τα άρθρα συζητούν.

Τα επιχειρηματικά έγγραφα είναι διαφορετικά:

Ονόματα προϊόντων που μοιάζουν με ονόματα προσώπων:

  • «Apple iPhone 15 Pro shipment records...» → επισημαίνεται ως PERSON
  • «Samsung Galaxy Tab» → επισημαίνεται ως PERSON
  • «Cisco Meraki deployment» → επισημαίνεται ως PERSON

Ονόματα εταιρειών με δομή ονόματος προσώπου:

  • «Johnson Controls quarterly results» → «Johnson» επισημαίνεται ως PERSON
  • «Goldman Sachs portfolio» → «Goldman» επισημαίνεται ως PERSON
  • «BlackRock investment thesis» → επισημαίνεται ως PERSON

Τοπωνύμια που ενεργοποιούν NER προσώπου:

  • «Victoria Harbour development» → «Victoria» επισημαίνεται ως PERSON
  • «Santiago distribution hub» → «Santiago» επισημαίνεται ως PERSON

Σε ένα επιχειρηματικό έγγραφο με 100 κεφαλαιογραμμένα κύρια ονόματα, το προεπιλεγμένο μοντέλο της spaCy στερείται της συμφραζομενικής κατανόησης για να διακρίνει αξιόπιστα το «Apple» (εταιρεία) από το «Apple Smith» (πρόσωπο).

Η Επίδραση Κατάντη

Μια εταιρεία ανάλυσης δεδομένων που επεξεργάζεται έρευνες ανατροφοδότησης πελατών εφάρμοσε το Presidio για ανωνυμοποίηση πριν τη διαμοίραση αποτελεσμάτων με ομάδες ανάλυσης πελατών. Έλεγχος μετά την ανάπτυξη:

  • 40% των απαντήσεων ερευνών είχαν λανθασμένα redacted ονόματα προϊόντων
  • Τα ονόματα πόλεων που αναφέρθηκαν στις απαντήσεις αφαιρέθηκαν συστηματικά
  • Οι αναφορές εμπορικών σημάτων — μέρος του πλαισίου ανάλυσης — ανωνυμοποιήθηκαν
  • Το συναίσθημα πελατών για συγκεκριμένα προϊόντα έγινε μη αναλύσιμο

Η ομάδα ανάλυσης ελάμβανε δεδομένα όπου «Λατρεύω το [REDACTED] Pro αλλά ο φορτιστής [REDACTED] χάλασε» αντικατέστησε το «Λατρεύω το iPhone Pro αλλά ο φορτιστής Apple χάλασε.» Η ανωνυμοποίηση κατέστρεψε την αναλυτική αξία για την οποία συλλέχθηκε η έρευνα.

Η εταιρεία δεν υπερπροστάτευε την ιδιωτικότητα — κατέστρεφε χρησιμότητα χωρίς να επιτυγχάνει συμμόρφωση. Μετά το εύρημα του ελέγχου, το Presidio αντικαταστάθηκε.

Η Υβριδική Προσέγγιση Ανίχνευσης

Το πρόβλημα ακρίβειας δεν είναι μοναδικό στο βασικό μοντέλο του Presidio — είναι εγγενής περιορισμός του NER σε επίπεδο token χωρίς πλαίσιο. Η επιδιόρθωση απαιτεί ανίχνευση με επίγνωση πλαισίου.

Μοντέλα βασισμένα σε Transformer (XLM-RoBERTa): Τα μεγάλα γλωσσικά μοντέλα εκπαιδευμένα σε ποικίλα κείμενα κατανοούν συμφραζομενικές σχέσεις. «Apple announced its earnings» → Apple είναι εταιρεία (συμφραζομενική ένδειξη: «announced earnings»). «Apple Smith joined the team» → Apple είναι όνομα προσώπου (συμφραζομενική ένδειξη: «joined the team»).

Η ανίχνευση με επίγνωση πλαισίου βελτιώνει δραματικά την ακρίβεια διατηρώντας παράλληλα την ανάκληση:

ΠροσέγγισηΑκρίβειαΑνάκληση
Προεπιλεγμένο NER Presidio22,7%~85%
Μόνο Regex~95%~40%
Υβριδικό (Regex + NLP + Transformer)~85%~80%

Η υβριδική προσέγγιση δεν επιτυγχάνει τέλεια ακρίβεια — αυτό θα απαιτούσε ανθρώπινη ανασκόπηση. Αλλά 85% ακρίβεια σημαίνει ποσοστό ψευδώς θετικών 15% αντί 77,3%. Για επεξεργασία επιχειρηματικών εγγράφων, αυτή είναι η διαφορά μεταξύ χρήσιμης εξόδου και κατεστραμμένων δεδομένων.

Πώς λειτουργεί η υβριδική στοίβα:

  1. Επίπεδο Regex: Υψηλής ακρίβειας ανίχνευση για δομημένα αναγνωριστικά (SSN, διευθύνσεις email, αριθμοί τηλεφώνου, IBAN). Αυτές οι μορφές είναι αναγνώσιμες από μηχανή, οπότε τα ψευδώς θετικά είναι σπάνια. Εκτελείται πρώτο, εξαλείφει δομημένο PII με σχεδόν 100% ακρίβεια.

  2. Επίπεδο NLP (spaCy): Τυπικό NER για ονόματα προσώπων, οργανισμούς, τοποθεσίες. Παρέχει το αρχικό σύνολο ανιχνεύσεων. Υψηλή ανάκληση, χαμηλότερη ακρίβεια.

  3. Επίπεδο Transformer (XLM-RoBERTa): Επανακατάταξη ανιχνεύσεων NLP βάσει πλαισίου. Οι οντότητες που επισημάνθηκαν από NLP επαναξιολογούνται με πλήρες πλαίσιο πρότασης. Το «Apple» σε πλαίσιο προϊόντος χάνει βαθμολογία οντότητας προσώπου. Το «John» ως όνομα υποκειμένου παραπόνου πελάτη κερδίζει βαθμολογία οντότητας προσώπου.

  4. Κατώφλι εμπιστοσύνης: Μόνο οι ανιχνεύσεις πάνω από βαθμονομημένο κατώφλι εμπιστοσύνης περνούν στην ανωνυμοποίηση. Το κατώφλι είναι ρυθμιζόμενο — υψηλότερο για περιπτώσεις κρίσιμης ακρίβειας (επιχειρηματικές αναλύσεις), χαμηλότερο για περιπτώσεις κρίσιμης συμμόρφωσης (αποαναγνώριση HIPAA).

Πρακτικός Αντίκτυπος: Ανάκτηση Ανάλυσης Ερευνών

Μετά τη μετάβαση σε υβριδική ανίχνευση:

  • Ψευδώς θετικά ονομάτων προϊόντων: μειώθηκαν από 40% σε 3%
  • Ψευδώς θετικά ονομάτων πόλεων: μειώθηκαν από 100% των αναφορών πόλεων σχεδόν σε 0%
  • Ανίχνευση πραγματικών ονομάτων προσώπων: διατηρήθηκε σε ~82% ανάκληση (ελαφρά μείωση από 85% ως αντάλλαγμα για κέρδη ακρίβειας)

Οι έρευνες είναι πλέον χρήσιμες. Το «iPhone», «Apple», «Samsung» και «Chicago» διατηρούνται. Τα ονόματα πελατών σε συμφραζόμενα ειδικά παραπόνων ανωνυμοποιούνται σωστά.

Η ανταλλαγή: η υβριδική ανίχνευση είναι υπολογιστικά πιο απαιτητική. Για μεγάλης κλίμακας επεξεργασία, αυτό μεταφράζεται σε ελαφρώς μεγαλύτερο χρόνο επεξεργασίας. Για τις περισσότερες επιχειρηματικές περιπτώσεις, η βελτίωση ακρίβειας αξίζει το κόστος.

Πότε να Αποδεχτείτε Υψηλότερα Ποσοστά Ψευδώς Θετικών

Μερικά πλαίσια συμμόρφωσης ευνοούν την ανάκληση έναντι της ακρίβειας:

Αποαναγνώριση HIPAA Safe Harbor: Η παράλειψη ενός αληθώς θετικού (αποτυχία αφαίρεσης ονόματος προσώπου) είναι παραβίαση HIPAA. Ένα ποσοστό ψευδώς θετικών 10% είναι αποδεκτό αν εξασφαλίζει σχεδόν 100% ανάκληση πραγματικού PHI. Η υπερβολική ανωνυμοποίηση είναι προτιμότερη από την ανεπαρκή.

Έλεγχος νομικών εγγράφων υψηλών διακυβευμάτων: Η παράλειψη ονόματος δικηγόρου-πελάτη που προστατεύεται από επικοινωνιακό απόρρητο μπορεί να παραιτηθεί από αυτό. Τα ψευδώς θετικά απαιτούν ανασκόπηση δικηγόρου αλλά δεν δημιουργούν νομική ευθύνη.

Γενικές επιχειρηματικές αναλύσεις: Η υπερβολική ανωνυμοποίηση καταστρέφει δεδομένα χωρίς να επιτυγχάνει όφελος συμμόρφωσης. Η ακρίβεια έχει μεγαλύτερη σημασία. Χρησιμοποιήστε υβριδική ανίχνευση με συντηρητικά κατώφλια.

Η κατάλληλη ισορροπία ακρίβειας-ανάκλησης εξαρτάται από την περίπτωση χρήσης. Εργαλεία που επιτρέπουν ρύθμιση κατωφλίου παρέχουν την ευελιξία για βελτιστοποίηση ανά περίπτωση.

Συμπέρασμα

Ένα ποσοστό ακρίβειας 22,7% σημαίνει ότι 3 στα 4 πράγματα που το εργαλείο PII σας αποκαλεί «όνομα προσώπου» δεν είναι όνομα προσώπου. Για επιχειρηματικά έγγραφα, αυτό το επίπεδο ακρίβειας καθιστά την έξοδο ανωνυμοποίησης μη χρήσιμη για αναλυτικούς σκοπούς, ενώ παρέχει ψευδή διαβεβαίωση συμμόρφωσης.

Η υβριδική ανίχνευση που συνδυάζει regex, NLP και βαθμολόγηση συμφραζομενικού Transformer βελτιώνει την ακρίβεια στο σημείο όπου τα ανωνυμοποιημένα δεδομένα παραμένουν αναλυτικά χρήσιμα. Για οργανισμούς που εγκατέλειψαν το Presidio λόγω προβλημάτων ψευδώς θετικών, αυτή η αρχιτεκτονική είναι η λύση — όχι διαφορετική ρύθμιση του ίδιου μοντέλου.

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.