Τι Χάνει το Presidio: Οι 220+ Τύποι Οντοτήτων Απαραίτητοι για Ανίχνευση PII Συμβατή με GDPR
Το Microsoft Presidio διαθέτει περίπου 40 προεπιλεγμένα αναγνωριστικά οντοτήτων. Για αναπτύξεις στις ΗΠΑ που χειρίζονται έγγραφα εστιασμένα στις ΗΠΑ, αυτό καλύπτει τις βασικές κατηγορίες: SSN, αμερικανικά διαβατήρια, αμερικανικές άδειες οδήγησης, πιστωτικές κάρτες, διευθύνσεις email, αριθμούς τηλεφώνου και ονόματα προσώπων.
Για αναπτύξεις στην ΕΕ, το κενό κάλυψης είναι σημαντικό. Ο GDPR ισχύει για όλα τα προσωπικά δεδομένα της ΕΕ ανεξαρτήτως εθνικότητας. Οι οργανισμοί της ΕΕ που επεξεργάζονται δεδομένα των πολιτών τους χρειάζονται αναγνωριστικά που το Presidio δεν παρέχει εξ ορισμού.
Η Προεπιλεγμένη Βιβλιοθήκη Οντοτήτων Presidio
Τα προεπιλεγμένα αναγνωριστικά του Presidio περιλαμβάνουν:
Αναγνωριστικά εστιασμένα στις ΗΠΑ:
- US Social Security Number (SSN)
- US Passport Number
- US Driver's License Number (μορφές πολλαπλών πολιτειών)
- US Bank Account Number
- US ITIN (Individual Taxpayer Identification Number)
- US Medical License Number
Καθολικά αναγνωριστικά:
- Διεύθυνση Email
- Αριθμός Τηλεφώνου (προτεραιότητα μορφής ΗΠΑ)
- Διεύθυνση IP
- Αριθμός Πιστωτικής Κάρτας (αλγόριθμος Luhn)
- Διεύθυνση Crypto Wallet
- URL
Γενικές οντότητες κειμένου:
- PERSON (βάσει NER)
- LOCATION (βάσει NER)
- ORGANIZATION (βάσει NER)
- DATE_TIME (βάσει NER)
Περιορισμένη διεθνής κάλυψη:
- UK NHS Number
- UK National Insurance Number (NINO)
- Αναγνωριστικά Χρηματοπιστωτικής Οντότητας (μερικά)
Σύνολο: ~40 αναγνωριστικά
Τι Χρειάζονται Πραγματικά οι Οργανισμοί ΕΕ
Χρηματοοικονομικά αναγνωριστικά: Το IBAN (International Bank Account Number) εμφανίζεται σχεδόν σε κάθε επιχειρηματικό έγγραφο ΕΕ που αφορά πληρωμές, εμβάσματα, τιμολόγηση και μισθοδοσία. Οι μορφές IBAN ποικίλλουν ανά χώρα αλλά ακολουθούν διεθνές πρότυπο (ISO 13616). Το Presidio δεν έχει προεπιλεγμένο αναγνωριστικό IBAN.
Μια γερμανική fintech που επεξεργάζεται αρχεία πληρωμών πελατών επεξεργάζεται αριθμούς IBAN σε κάθε έγγραφο συναλλαγής. Χωρίς αναγνώριση IBAN, αυτά τα έγγραφα επεξεργάζονται με ενεργή ανίχνευση πιστωτικών καρτών (ανίχνευση αριθμών καρτών) αλλά τα πεδία IBAN (το κύριο αναγνωριστικό πληρωμών ΕΕ) αγνοούνται εντελώς.
Εθνικά φορολογικά αναγνωριστικά:
- Γερμανικό Steueridentifikationsnummer: 11-ψήφιο αριθμητικό
- Γαλλικό NIR (Numéro d'Inscription au Répertoire): 13 αλφαριθμητικοί χαρακτήρες
- Ιταλικό Codice Fiscale: 16 αλφαριθμητικοί χαρακτήρες με δομική επικύρωση
- Ισπανικό NIF/NIE: 9 χαρακτήρες με επίθημα/πρόθεμα γράμμα
- Ολλανδικό BSN: 9-ψήφιο με επικύρωση 11-απόδειξης
Κανένα από αυτά δεν βρίσκεται στην προεπιλεγμένη βιβλιοθήκη οντοτήτων του Presidio. Ένας επεξεργαστής μισθοδοσίας ΕΕ που χειρίζεται έγγραφα υπαλλήλων από πολλά κράτη μέλη είναι ουσιαστικά τυφλός στα πιο ευαίσθητα χρηματοοικονομικά αναγνωριστικά τους.
Εθνικά αναγνωριστικά υγείας:
- UK NHS Number: 10-ψήφιο με έλεγχο modulus-11
- Γαλλικό Numéro de Sécurité Sociale (NIR): Χρησιμεύει επίσης ως αναγνωριστικό υγείας
- Γερμανικό Krankenkassennummer: Αλφαριθμητικό, ειδικό ανά ασφαλιστή
- Ιταλικό Codice Fiscale: Χρησιμοποιείται επίσης ως αναγνωριστικό υγείας
- Ολλανδικό BSN: Χρησιμοποιείται επίσης για ασφάλεια υγείας
Οι οργανισμοί υγειονομικής περίθαλψης σε ολόκληρη την ΕΕ χρειάζονται αυτά τα αναγνωριστικά για προστασία δεδομένων υγείας ισοδύναμη με HIPAA. Το Presidio παρέχει τον αριθμό UK NHS αλλά χάνει τα αναγνωριστικά υγείας της ηπειρωτικής Ευρώπης.
Ευρωπαϊκές μορφές άδειας οδήγησης: Το Presidio έχει αναγνωριστικά αμερικανικών αδειών οδήγησης (ειδικά ανά πολιτεία). Οι ευρωπαϊκές μορφές άδειας οδήγησης τυποποιούνται βάσει Οδηγίας 2006/126/ΕΚ αλλά ποικίλλουν ανά κράτος μέλος στη δομή τους. Δεν υπάρχουν αναγνωριστικά ευρωπαϊκής άδειας οδήγησης στις προεπιλογές Presidio.
Αριθμοί ΦΠΑ: Οι αριθμοί ΦΠΑ ΕΕ εμφανίζονται σε κάθε επιχειρηματική συναλλαγή. Μορφή: κωδικός χώρας (2 γράμματα) + 8-12 αλφαριθμητικά ψηφία. Το Presidio δεν έχει αναγνωριστικό αριθμού ΦΠΑ. Για επιχειρήσεις ΕΕ που μοιράζονται τιμολόγια, συμβόλαια και εμπορικά έγγραφα, οι αριθμοί ΦΠΑ είναι αναγνωριστικά που συνδέονται με εγγεγραμμένες επιχειρηματικές οντότητες και τους διευθυντές τους.
Μορφές διαβατηρίου ΕΕ: Αναγνώριση αμερικανικού διαβατηρίου στο Presidio, αλλά οι μορφές διαβατηρίου ΕΕ (ειδικά η μορφή Machine Readable Zone) δεν καλύπτονται.
Το Κόστος Μηχανικής για Ανάπτυξη Προσαρμοσμένων Αναγνωριστικών
Όταν οι οργανισμοί ΕΕ αναπτύσσουν Presidio και ανακαλύπτουν το κενό κάλυψης οντοτήτων, η απόκριση είναι συνήθως ανάπτυξη προσαρμοσμένων αναγνωριστικών. Το κόστος:
Χρόνος ανάπτυξης ανά αναγνωριστικό:
- Έρευνα μορφής αναγνωριστικού: 1-2 ώρες
- Γραφή κλάσης Python PatternRecognizer: 2-4 ώρες
- Υλοποίηση regex με λογική επικύρωσης: 2-4 ώρες
- Ρύθμιση λέξεων πλαισίου για βελτίωση ακρίβειας: 1-2 ώρες
- Γραφή δοκιμών: 2-3 ώρες
- Ενσωμάτωση και δοκιμή σε ανάπτυξη: 1-2 ώρες
Ανά αναγνωριστικό: 9-17 ώρες.
Για μια γερμανική fintech που χρειάζεται IBAN + Steuer-ID + ευρωπαϊκή άδεια οδήγησης + γερμανικό ΦΠΑ:
- 4 προσαρμοσμένα αναγνωριστικά × 13 ώρες μέσο όρο = 52 ώρες μηχανικής
- Στα €100/ώρα: €5.200 σε ανάπτυξη προσαρμοσμένων αναγνωριστικών
Συν συνεχής συντήρηση καθώς αλλάζουν μορφές, εμφανίζονται νέες περιπτώσεις δοκιμών και οι ενημερώσεις API Presidio απαιτούν τροποποιήσεις αναγνωριστικών.
Συνολικό κόστος για κάλυψη EU GDPR πάνω στο Presidio: €5.200+ αρχικά + συνεχής συντήρηση
Η Εναλλακτική: Διαχειριζόμενες Βιβλιοθήκες Οντοτήτων
Το anonym.legal επεκτείνει το θεμέλιο Presidio με 285+ τύπους οντοτήτων που συντηρεί η ομάδα ανάπτυξης — συμπεριλαμβανομένων των ειδικών για ΕΕ αναγνωριστικών που λείπουν από τις προεπιλογές του Presidio:
Κύρια κάλυψη πέρα από τις προεπιλογές Presidio:
- IBAN (όλες οι μορφές κρατών μελών ΕΕ)
- Φορολογικά αναγνωριστικά κρατών μελών ΕΕ (συμπεριλαμβανομένων Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL και άλλων)
- Εθνικά αναγνωριστικά υγείας ΕΕ
- Αριθμοί ΦΠΑ (μορφή ΕΕ)
- Μορφές ευρωπαϊκής άδειας οδήγησης
- Ευρωπαϊκές μορφές διαβατηρίου
- Παραλλαγές οντοτήτων σε 48 υποστηριζόμενες γλώσσες
Συντήρηση: Ενημερώσεις βιβλιοθήκης οντοτήτων ωθούνται ως μέρος του managed service. Όταν η Γερμανία εισάγει νέα μορφή φορολογικού αναγνωριστικού, οι χρήστες λαμβάνουν το αναγνωριστικό χωρίς να υποβάλλουν pull request.
Προσαρμοσμένη επέκταση: Για αναγνωριστικά ειδικά για τον οργανισμό που δεν βρίσκονται στη βιβλιοθήκη, ο builder προσαρμοσμένων οντοτήτων επιτρέπει την προσθήκη μοτίβων χωρίς κώδικα Python.
Το Παράδειγμα Γερμανικής Fintech
Μια γερμανική fintech χρειάζεται να ανιχνεύει IBAN, BIC, γερμανικά φορολογικά ID (Steuer-ID) και γερμανικούς αριθμούς εμπορικής εγγραφής (Handelsregisternummer) σε έγγραφα πελατών.
Ποσοστό ανίχνευσης Presidio για αυτούς τους 4 τύπους οντοτήτων: 0%
Όχι χαμηλή ακρίβεια, όχι ψευδώς θετικά — μηδέν ανιχνεύσεις. Κανένας από τους 4 τύπους οντοτήτων δεν εμφανίζεται στην προεπιλεγμένη βιβλιοθήκη οντοτήτων Presidio.
Γραφή προσαρμοσμένων αναγνωριστικών: 4 αναγνωριστικά × 13 ώρες = 52 ώρες = €5.200 στους ρυθμούς μηχανικής.
Χρήση managed βιβλιοθήκης οντοτήτων με όλα τα 4 καλυμμένα: €180/έτος (πρόγραμμα Pro).
Κόστος για επίτευξη ανίχνευσης συμβατής με GDPR αυτών των γερμανικών χρηματοοικονομικών αναγνωριστικών:
- Διαδρομή Presidio: €5.200 μηχανική + λειτουργικά κόστη Presidio
- Διαδρομή managed service: €180/έτος, ανίχνευση και των 4 εξ ορισμού
Το χάσμα είναι 28× στο πρώτο έτος. Για κάθε έτος λειτουργίας, ο χρόνος μηχανικής για συντήρηση προσαρμοσμένων αναγνωριστικών προστίθεται στο κόστος Presidio ενώ το κόστος managed service παραμένει σταθερό.
Συμπέρασμα
Τα ~40 προεπιλεγμένα αναγνωριστικά του Presidio εξυπηρετούν καλά τις εστιασμένες στις ΗΠΑ περιπτώσεις χρήσης. Για αναπτύξεις ΕΕ που απαιτούν συμμόρφωση GDPR σε ειδικά αναγνωριστικά κρατών μελών, η κάλυψη εξ ορισμού είναι ανεπαρκής. Το κενό καλύπτεται είτε μέσω ανάπτυξης προσαρμοσμένων αναγνωριστικών (ακριβό, χρονοβόρο) είτε μέσω managed service που συντηρεί κάλυψη ευρωπαϊκών οντοτήτων ως μέρος της συνδρομής.
Για τους οργανισμούς ΕΕ όπου η συμμόρφωση δεν είναι διαπραγματεύσιμη και οι μηχανικοί πόροι είναι περιορισμένοι, η προδημιουργημένη βιβλιοθήκη ευρωπαϊκών οντοτήτων του managed service εξαλείφει ένα έργο προσαρμοσμένης ανάπτυξης 50+ ωρών πριν από την ανωνυμοποίηση πρώτου εγγράφου.
Πηγές: