Το Πρόβλημα Ακρίβειας 22,7% στην Παραγωγή
Μια μελέτη αξιολόγησης 2024 του Microsoft Presidio — της ανοιχτού κώδικα μηχανής ανίχνευσης PII που χρησιμοποιείται σε νομική τεχνολογία, υγειονομική περίθαλψη και εφαρμογές προστασίας δεδομένων επιχειρήσεων — βρήκε ποσοστό ακρίβειας 22,7% για ανίχνευση ονομάτων προσώπων σε επιχειρηματικά έγγραφα.
Η ακρίβεια μετρά την ορθότητα των θετικών αναγνωρίσεων: τι ποσοστό των στοιχείων που το εργαλείο επισήμανε ως "ονόματα προσώπων" είναι πραγματικά ονόματα προσώπων. Στο 22,7%, περίπου 77 από κάθε 100 στοιχεία που επισημάνθηκαν ως ονόματα προσώπων είναι ψευδώς θετικά.
Η αξιολόγηση τεκμηρίωσε 13.536 ψευδώς θετικές ανιχνεύσεις ονομάτων σε 4.434 δείγματα εγγράφων. Τα ψευδώς θετικά περιλάμβαναν:
- Αντωνυμίες επισημασμένες ως ονόματα προσώπων ("I" στην αρχή προτάσεων)
- Ονόματα πλοίων επισημασμένα ως ονόματα προσώπων ("ASL Scorpio")
- Ονόματα οργανισμών επισημασμένα ως ονόματα προσώπων ("Deloitte & Touche")
- Ονόματα χωρών επισημασμένα ως ονόματα προσώπων ("Αργεντινή", "Σιγκαπούρη")
Αυτά δεν είναι οριακές περιπτώσεις. Είναι συστηματικά μοτίβα που εμφανίζονται όταν ένα γενικής χρήσης μοντέλο NLP εκπαιδευμένο σε μικτά σώματα κειμένων εφαρμόζεται σε εξειδικευμένους τύπους εγγράφων όπου τα κύρια ονόματα εμφανίζονται σε πλαίσια που δεν εκπαιδεύτηκε να αποσαφηνίζει.
Η Δομή Κόστους των Ψευδώς Θετικών σε Κλίμακα
Σε νομικά και υγειονομικά περιβάλλοντα, τα ψευδώς θετικά δεν είναι δωρεάν. Κάθε επισημασμένο στοιχείο απαιτεί διάθεση: είτε ανθρώπινη αναθεώρηση για επιβεβαίωση ή απόρριψη της επισήμανσης, είτε αυτόματη επεξεργασία που αφήνει το ψευδώς θετικό αδιόρθωτο.
Επιλογή 1: Ανθρώπινη αναθεώρηση κάθε επισημασμένου στοιχείου. Στα €200 έως €800 ανά ώρα για χρόνο δικηγόρου ή ειδικού, η αναθεώρηση ψευδώς θετικών από σύστημα ακρίβειας 22,7% είναι οικονομικά απαγορευτική σε κλίμακα. Για παραγωγή 10.000 εγγράφων με 100 επισημασμένα στοιχεία ανά έγγραφο στο 22,7% ακρίβεια, περίπου 77.300 στοιχεία απαιτούν ανθρώπινη αναθεώρηση. Στα 5 λεπτά ανά στοιχείο στα €300 ανά ώρα, αυτό είναι 6.442 ώρες αναθεώρησης — περίπου €1,9 εκατ.
Επιλογή 2: Παράλειψη χειροκίνητης αναθεώρησης και αποδοχή αυτόματης επεξεργασίας. Το αποτέλεσμα είναι παραγωγή όπου το 77% των "διαγραμμένων" στοιχείων δεν ήταν πραγματικά ευαίσθητα — δημιουργώντας ευθύνη υπερβολικής διαγραφής, καταστρέφοντας τη χρηστικότητα εγγράφων και ενδεχομένως προκαλώντας κυρώσεις.
Επιλογή 3: Κατώφλια βαθμολόγησης. Το Presidio επιτρέπει διαμόρφωση score_threshold για μείωση ψευδώς θετικών, επισημαίνοντας μόνο στοιχεία πάνω από κατώφλι εμπιστοσύνης. Μια μελέτη αξιολόγησης 2024 εγγράφων ιατρικής απεικόνισης DICOM διαπίστωσε ότι ακόμα και με score_threshold=0,7 — ένα σχετικά επιθετικό φίλτρο ακρίβειας — 38 από 39 εικόνες DICOM είχαν ακόμα ψευδώς θετικές οντότητες.
Γιατί το Αμιγώς ML Αποτυγχάνει σε Εξειδικευμένα Έγγραφα
Το μοτίβο ψευδώς θετικών του Presidio αντικατοπτρίζει θεμελιώδη περιορισμό των γενικής χρήσης μοντέλων NLP σε εξειδικευμένα πλαίσια:
Τα νομικά έγγραφα περιέχουν εξειδικευμένα κύρια ονόματα — ονόματα υποθέσεων, ονόματα νόμων, χαρακτηρισμοί τεκμηρίων — που μοιάζουν επιφανειακά με ονόματα προσώπων. Τα ιατρικά έγγραφα περιέχουν ιατρικούς όρους, φαρμακευτικά ονόματα και ανατομικούς όρους που ένα γενικής χρήσης μοντέλο μπορεί να ταξινομήσει λανθασμένα.
Η λύση απαιτεί υβριδική ανίχνευση που συνδυάζει ML με κανόνες βασισμένους σε regex και επικύρωση αθροίσματος ελέγχου. Η επικύρωση αθροίσματος ελέγχου για αριθμητικά αναγνωριστικά (SSN, αριθμοί φορολογικού μητρώου, αριθμοί κοινωνικής ασφάλισης) μειώνει δραματικά τα ψευδώς θετικά επειδή απαιτεί μαθηματική επικύρωση και όχι μόνο αντιστοίχιση μοτίβου.
Πηγές:
- Ξεφυλλίζοντας Πολεμικά Ευρήματα του Presidio 2024: github.com/microsoft/presidio/issues
- Υπολογισμοί κόστους e-discovery: RAND Corporation "Where the Money Goes" (2012), ενημερωμένο με τα τρέχοντα ωρομίσθια