anonym.legal

By · Last updated 2026-04-03

Πίσω στο BlogΤεχνικά

Ο «Φόρος» των Ψευδώς Θετικών στα Εργαλεία PII

Το GitHub issue #1071 του Presidio τεκμηριώνει συστηματικά ψευδώς θετικά. Μελέτη του 2024 βρήκε ακρίβεια 22,7% σε επιχειρηματικά σύνολα δεδομένων μικτής γλώσσας.

April 3, 20268 λεπτά ανάγνωσης
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Ο «Φόρος» των Ψευδώς Θετικών στα Εργαλεία Ανίχνευσης PII

Ενημερωμένο για το 2026

Τα περισσότερα εργαλεία PII κρίνονται με βάση την ανάκληση. Η ανάκληση μετρά το ποιο ποσοστό των πραγματικών PII εντοπίζει το εργαλείο. Αλλά η ακρίβεια έχει εξίσου μεγάλη σημασία. Η ακρίβεια μετρά ποιο ποσοστό των ειδοποιήσεων του εργαλείου είναι πραγματικά PII.

Η χαμηλή ακρίβεια είναι ακριβή. Ένα σύστημα με 95% ανάκληση και 22,7% ακρίβεια εντοπίζει το μεγαλύτερο μέρος των PII. Ωστόσο, για κάθε πραγματική οντότητα PII που επισημαίνει, εγείρει επίσης 3,4 λανθασμένες ειδοποιήσεις. Σε ένα σύνολο δεδομένων με 10.000 πραγματικές οντότητες PII, αυτό το σύστημα παράγει περίπου 44.000 ειδοποιήσεις. Περίπου 34.000 από αυτές είναι λανθασμένες. Κάθε μία κοστίζει χρόνο αναθεώρησης ή προκαλεί υπερβολική επεξεργασία.

Αυτός είναι ο φόρος των ψευδώς θετικών. Είναι το γενικό κόστος που πληρώνει κάθε ομάδα όταν εκτελεί ένα σύστημα PII υψηλής ανάκλησης και χαμηλής ακρίβειας σε κλίμακα. Το άμεσο κόστος είναι ο χρόνος των αναθεωρητών. Το έμμεσο κόστος είναι χειρότερο: τα υπερεπεξεργασμένα έγγραφα κρύβουν χρήσιμα δεδομένα, επιβραδύνουν την εργασία και διαβρώνουν την εμπιστοσύνη στο εργαλείο.

Τι Αποκαλύπτει το Presidio Issue #1071

Η συζήτηση #1071 στο GitHub του Microsoft Presidio (2024) καταγράφει ένα συγκεκριμένο μοτίβο. Οι αναγνωριστές TFN (Tax File Number) και PCI χρησιμοποιούν επικύρωση αθροίσματος ελέγχου. Οι αριθμοί που περνούν το άθροισμα ελέγχου λαμβάνουν βαθμολογία 1,0 — μέγιστη εμπιστοσύνη. Δεν απαιτείται πλαίσιο PII.

Η βαθύτερη αιτία: ο έλεγχος λέξεων πλαισίου εκτελείται μετά το βήμα του αθροίσματος ελέγχου, όχι πριν. Ένας αριθμός που περνά το άθροισμα ελέγχου λαμβάνει κορυφαία βαθμολογία ανεξάρτητα από το περιβάλλον κείμενο. Σε οικονομικά υπολογιστικά φύλλα, επιστημονικά σύνολα δεδομένων ή αρχεία καταγραφής, αυτό πλημμυρίζει την έξοδο με λανθασμένες ειδοποιήσεις. Το φιλτράρισμα ορίου βαθμολογίας δεν μπορεί να το διορθώσει. Οι βαθμολογίες είναι ήδη στο μέγιστο.

Ένα δεύτερο μοτίβο εμφανίζεται στο Presidio issue #999. Η κατάτμηση λέξεων στα γερμανικά αποτυγχάνει για σύνθετα ουσιαστικά. Λέξεις όπως Bundesbehörde (ομοσπονδιακή αρχή) μπορεί να κατατμηθούν λανθασμένα και να επισημανθούν ως προσωπικά ονόματα. Αυτό προσθέτει θόρυβο σε οποιοδήποτε έγγραφο γερμανικής γλώσσας.

Το Πρόβλημα Ακρίβειας 22,7%

Οι Alvaro et al. (2024) δοκίμασαν το Presidio σε επιχειρηματικά σύνολα δεδομένων μικτής γλώσσας. Βρήκαν ακρίβεια 22,7%. Σε πραγματικά έγγραφα, λιγότερο από μία στις τέσσερις ειδοποιήσεις του Presidio είναι πραγματική οντότητα PII. Αυτό συμφωνεί με ό,τι αναφέρουν οι επαγγελματίες. Ένα εργαλείο ρυθμισμένο μόνο για ανάκληση παράγει πάρα πολύ θόρυβο για χρήση σε παραγωγή.

Μια μελέτη DICOM του 2024 έδειξε ότι η αύξηση του score_threshold στο 0,7 άφηνε ακόμα λανθασμένες ειδοποιήσεις σε 38 από τις 39 ιατρικές εικόνες. Ένα όριο που μειώνει τον θόρυβο σε έναν τύπο εγγράφου δημιουργεί παραλείψεις σε άλλον.

Αυτό δεν είναι αποκλειστικό πρόβλημα του Presidio. Κάθε σταθερό όριο επιβάλλει συμβιβασμό. Ένα υψηλό όριο μειώνει τον θόρυβο αλλά αυξάνει τις παραλείψεις. Ένα χαμηλό όριο αυξάνει την ανάκληση αλλά διογκώνει τον αριθμό ειδοποιήσεων.

Βαθμολόγηση με Επίγνωση Πλαισίου

Η διόρθωση είναι βαθμολόγηση εμπιστοσύνης με επίγνωση πλαισίου. Αντί να βαθμολογεί μόνο με βάση την αντιστοίχιση μοτίβου, το σύστημα ενισχύει την εμπιστοσύνη όταν λέξεις πλαισίου εμφανίζονται κοντά στην αντιστοίχιση. Μειώνει επίσης τη βαθμολογία όταν απουσιάζει το πλαίσιο.

Για ανίχνευση TFN: λέξεις όπως «tax file number», «TFN» ή «Australian tax» κοντά σε έναν αριθμό ενισχύουν τη βαθμολογία του. Ένας αριθμός που περνά το άθροισμα ελέγχου αλλά δεν έχει κοντινές λέξεις πλαισίου λαμβάνει βαθμολογία κάτω από το όριο αναθεώρησης. Η εσφαλμένη ειδοποίηση καταστέλλεται.

Για θόρυβο εγγλωσσίας: οι τύποι οντοτήτων που συνδέονται με συγκεκριμένες χώρες μπορούν να περιοριστούν σε έγγραφα της αντίστοιχης γλώσσας. Ένας ανιχνευτής TFN περιορισμένος στα αγγλικά και αυστραλιανά αγγλικά αφαιρεί τον θόρυβο. Η εκτέλεσή του σε γερμανικό περιεχόμενο χωρίς περιορισμό είναι η πηγή του προβλήματος.

Το τρίτο επίπεδο σε ένα υβριδικό σύστημα είναι ένα μοντέλο transformer. Διαβάζει το πλήρες παράθυρο πλαισίου γύρω από κάθε υποψήφιο. Διακρίνει το «Γιάννης Παπαδόπουλος, Patient ID 12345» από έναν κωδικό προϊόντος που ταιριάζει σε μοτίβο ονόματος. Το πλαίσιο λύνει την αμφισημία που δεν μπορούν να λύσουν το regex και τα αθροίσματα ελέγχου.

Δείτε πώς η τριεπίπεδη μηχανή ανίχνευσης χειρίζεται την ακρίβεια σε κλίμακα. Ο οδηγός πολύγλωσσης ανίχνευσης PII καλύπτει πώς ο θόρυβος μεταξύ γλωσσών επηρεάζει τη συμμόρφωση με τον GDPR.

Πρακτικά Βήματα

Πριν αναπτύξετε οποιοδήποτε εργαλείο PII, μετρήστε την ακρίβειά του — όχι μόνο την ανάκληση.

Εκτελέστε το εργαλείο σε ένα σύνολο εγγράφων με γνωστά PII και γνωστά μη PII. Μετρήστε τις ειδοποιήσεις και στις δύο ομάδες. Υπολογίστε το true_positives / (true_positives + false_positives). Αυτός ο αριθμός αποκαλύπτει το βάρος αναθεώρησης πριν δεσμευτείτε για μια ανάπτυξη.

Για ομάδες που ήδη χρησιμοποιούν το Presidio, η ανάλυση κατανομής βαθμολογίας είναι ένας γρήγορος τρόπος. Εξαγάγετε ένα δείγμα ανιχνεύσεων με τις βαθμολογίες εμπιστοσύνης τους. Μετρήστε πόσες βαθμολογούν κάτω από 0,6, 0,7 και 0,8. Ένα μεγάλο ποσοστό ειδοποιήσεων υψηλής βαθμολογίας σε καθαρό κείμενο σηματοδοτεί κενό πλαισίου, όχι πρόβλημα ορίου. Η επισκόπηση ασφάλειας και συμμόρφωσης εξηγεί πώς να το τεκμηριώσετε αυτό σε DPIA.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.