Ενημερωμένο για το 2026
Το πρόβλημα ακρίβειας 22,7%
Μια μελέτη του 2024 δοκίμασε το Microsoft Presidio σε εταιρικά αρχεία. Το Presidio είναι ένα εργαλείο PII ανοιχτού κώδικα που χρησιμοποιείται ευρέως από νομικές ομάδες και οργανισμούς υγείας.
Η μελέτη μέτρησε πόσο συχνά το Presidio ήταν σωστό. Από όλα τα στοιχεία που επισημάνθηκαν ως ονόματα προσώπων, πόσα ήταν πραγματικά;
Η απάντηση ήταν 22,7%. Περίπου 77 επισημάνσεις στις 100 ήταν λανθασμένες. Η μελέτη μέτρησε 13.536 ψευδώς θετικά σε 4.434 δείγματα αρχείων.
Τα σφάλματα δεν ήταν τυχαία, αλλά ακολουθούσαν συγκεκριμένα μοτίβα:
- Αντωνυμίες επισημάνθηκαν ως πρόσωπα («I» στην αρχή πρότασης)
- Ονόματα σκαφών επισημάνθηκαν ως πρόσωπα («ASL Scorpio»)
- Ονόματα εταιρειών επισημάνθηκαν ως πρόσωπα («Deloitte & Touche»)
- Γεωγραφικοί όροι επισημάνθηκαν ως πρόσωπα («Argentina», «Singapore»)
Κανένα από αυτά δεν είναι σπάνια οριακή περίπτωση. Εμφανίζονται κάθε φορά που ένα γενικό μοντέλο NLP συναντά κείμενα συγκεκριμένου τομέα. Το μοντέλο δεν ήταν σχεδιασμένο να τα διακρίνει.
Τι κοστίζουν τα ψευδώς θετικά
Στο νομικό και υγειονομικό τομέα, κάθε επισήμανση απαιτεί απόκριση. Οι ομάδες έχουν τρεις επιλογές, όλες με πραγματικό κόστος.
Επιλογή 1: ένας χειριστής επαληθεύει κάθε επισήμανση. Το ωριαίο κόστος δικηγόρων και επαγγελματιών κυμαίνεται από 200 έως 800 ευρώ. Με ακρίβεια 22,7%, ο όγκος είναι τεράστιος. Δεν είναι βιώσιμο σε κλίμακα. Δείτε Αυτοματισμός PII στο eDiscovery και μείωση κόστους νομικής αναθεώρησης για το πώς τα κόστη αναθεώρησης αυξάνονται με τους όγκους.
Επιλογή 2: παράλειψη της αναθεώρησης και εμπιστοσύνη στην έξοδο. Αυτό επίσης ενέχει κίνδυνο. Όταν το 77% των «επισκοτισμένων» στοιχείων δεν είναι ευαίσθητα, δημιουργείται νομικός κίνδυνος. Τα δικαστήρια έχουν επιβάλει κυρώσεις σε δικηγόρους για υπερβολική επισκότιση. Δείτε Κυρώσεις στο eDiscovery για υπερβολική επισκότιση για τεκμηριωμένες περιπτώσεις.
Επιλογή 3: αύξηση του ορίου βαθμολογίας. Το Presidio επιτρέπει στους χρήστες να ορίζουν ένα score_threshold για να αποκλείουν αδύναμες επισημάνσεις. Μια μελέτη DICOM του 2024 το δοκίμασε στο 0,7 — ένα αρκετά υψηλό όριο. Αποτέλεσμα: 38 από 39 εικόνες DICOM εξακολουθούσαν να εμφανίζουν ψευδώς θετικά. Τα όρια βοηθούν. Δεν επιλύουν τη βασική αιτία.
Γιατί το γενικό NLP δυσκολεύεται σε αυτά τα πλαίσια
Το κενό του Presidio προέρχεται από αναντιστοιχία μεταξύ δεδομένων εκπαίδευσης και πραγματικής χρήσης.
Τα νομικά έγγραφα αφθονούν σε όρους με κεφαλαία. Ονόματα υποθέσεων, τίτλοι νόμων και κωδικοί παραρτημάτων φαίνονται όλοι ως προσωπικά δεδομένα σε ένα γενικό μοντέλο, το οποίο τα επισημαίνει. Τα περισσότερα δεν είναι.
Τα ιατρικά έγγραφα προσθέτουν ονόματα φαρμάκων, κωδικούς συσκευών και κλινικές συντομογραφίες. «Pt.» σημαίνει Ασθενής. «Dr.» σημαίνει Γιατρός. Αυτά παραπλανούν τον εντοπισμό οντοτήτων με τρόπους δύσκολο να προβλεφθούν.
Τα χρηματοοικονομικά έγγραφα περιέχουν κωδικούς προϊόντων, συμβολοσειρές οντοτήτων και αναγνωριστικά λογαριασμών που μοιράζονται επιφανειακά μοτίβα με προσωπικά δεδομένα.
Η εξειδικευμένη εκπαίδευση ενός μοντέλου σε δεδομένα συγκεκριμένου τομέα βοηθά, αλλά απαιτεί χρόνο και προσπάθεια για να χτιστεί και να συντηρηθεί ενημερωμένο.
Πώς ο υβριδικός εντοπισμός επιλύει το πρόβλημα
Το πρόβλημα των ψευδώς θετικών έχει μια σαφή λύση: διαχωρισμός της εργασίας κατά τύπο δεδομένων.
Κανόνες μοτίβου για δομημένα δεδομένα. Αριθμοί κοινωνικής ασφάλισης, αριθμοί τηλεφώνου, διευθύνσεις email και μορφές αναγνωριστικών ακολουθούν σταθερούς κανόνες. Μια συμβολοσειρά είτε αντιστοιχεί στο μοτίβο και περνά την επαλήθευση ψηφίου ελέγχου, είτε όχι. Μηδέν ψευδώς θετικά για έγκυρα σύνολα κανόνων.
Γλωσσικά μοντέλα για ελεύθερο κείμενο. Ονόματα και επώνυμα, επωνυμίες εταιρειών και τοποθεσίες σε αφηγηματικό κείμενο δεν έχουν άκαμπτη δομή. Το NLP τα βρίσκει όταν οι κανόνες δεν επαρκούν. Οι βαθμολογίες εμπιστοσύνης και οι έλεγχοι πλαισίου μειώνουν τον ρυθμό ψευδώς θετικών.
Ρυθμίσεις βαθμολογίας ανά τύπο για λεπτό έλεγχο. Νομικές ομάδες που δεν μπορούν να κινδυνεύσουν με υπερβολική επισκότιση ορίζουν υψηλά όρια για ασαφείς αντιστοιχίσεις. Ερευνητικές ομάδες που χρειάζονται υψηλή ανάκληση ορίζουν χαμηλότερα όρια. Δείτε Δυαδικός εντοπισμός PII και βαθμολογίες εμπιστοσύνης για τη συμμόρφωση για το πώς λειτουργούν τα επίπεδα βαθμολογίας στην πράξη.
Το αποτέλεσμα είναι πολύ λιγότερα σφάλματα σε σύγκριση με τις προεπιλεγμένες ρυθμίσεις του Presidio, διατηρώντας παράλληλα σταθερή ανάκληση όπου οι μόνοι κανόνες θα έχαναν πάρα πολλά.
Για νομικές και υγειονομικές ομάδες, το βασικό ερώτημα δεν είναι αν υπάρχουν ψευδώς θετικά — υπάρχουν πάντα στα συστήματα NLP. Το ερώτημα είναι αν το εργαλείο επιτρέπει να οριστεί, να μετρηθεί και να τεκμηριωθεί ο συμβιβασμός.