anonym.legal
Πίσω στο BlogΤεχνικά

Το Πρόβλημα Ακρίβειας Presidio: Γιατί ο Αλγόριθμος...

Η vanilla εγκατάσταση Presidio έχει κατώφλι εμπιστοσύνης 0,5 από προεπιλογή — οδηγώντας σε υπερ-ανίχνευση.

April 21, 20267 λεπτά ανάγνωσης
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Γιατί η Βανίλα Presidio Παράγει Ψευδώς Θετικά

Κατώφλι 0,5 από προεπιλογή: Το Presidio χρησιμοποιεί κατώφλι εμπιστοσύνης 0,5 για τους περισσότερους recognizers. Αυτό σημαίνει ότι ακόμα και αδύνατη ανίχνευση (51% εμπιστοσύνη) αναφέρεται ως PII.

Κοινές πηγές ψευδώς θετικών:

ΤύποςΠαράδειγμα Ψευδώς Θετικού
PERSON"Apple Store", "Spring Framework" (κοινά ονόματα)
PHONE"404-123-4567" (κωδικός σφάλματος HTTP)
DATE"12-24-25" (μοντέλο έκδοσης λογισμικού)
EMAIL"user@localhost" (εσωτερικά test emails)
IP"192.168.1.1" σε τεκμηρίωση δικτύου

Βελτίωση Ακρίβειας Presidio

Αύξηση κατωφλίου: Από 0,5 σε 0,75+ μειώνει ψευδώς θετικά αλλά αυξάνει ψευδώς αρνητικά.

Προσαρμογή recognizers: Δημιουργήστε custom recognizers με αυστηρότερα regex patterns ή context words.

Deny lists: Προσθέστε αδύνατα token (εσωτερικές ονομασίες, κωδικοί) στα deny lists για αποφυγή ψευδώς θετικών.

Context enhancement: Χρησιμοποιήστε context words (λέξεις πριν/μετά) για αύξηση εμπιστοσύνης — "phone: 555-1234" έχει υψηλότερη εμπιστοσύνη από απλό "555-1234".

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.