anonym.legal

By · Last updated 2026-06-05

Πίσω στο BlogGDPR & Συμμόρφωση

Το Presidio Χάνει 220+ Οντότητες GDPR

Το Presidio διαθέτει ~40 προεπιλεγμένα αναγνωριστικά οντοτήτων εστιασμένα σε αναγνωριστικά ΗΠΑ. Οι ευρωπαϊκοί οργανισμοί χρειάζονται IBAN, Codice Fiscale και πολλά άλλα που λείπουν εντελώς.

June 5, 20267 λεπτά ανάγνωσης
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Τι Χάνει το Presidio: Οι 220+ Τύποι Οντοτήτων Απαραίτητοι για Ανίχνευση PII Συμβατή με GDPR

Το Microsoft Presidio διαθέτει περίπου 40 προεπιλεγμένα αναγνωριστικά οντοτήτων. Για αναπτύξεις στις ΗΠΑ που χειρίζονται έγγραφα εστιασμένα στις ΗΠΑ, αυτό καλύπτει τις βασικές κατηγορίες: SSN, αμερικανικά διαβατήρια, αμερικανικές άδειες οδήγησης, πιστωτικές κάρτες, διευθύνσεις email, αριθμούς τηλεφώνου και ονόματα προσώπων.

Για αναπτύξεις στην ΕΕ, το κενό κάλυψης είναι σημαντικό. Ο GDPR ισχύει για όλα τα προσωπικά δεδομένα της ΕΕ ανεξαρτήτως εθνικότητας. Οι οργανισμοί της ΕΕ που επεξεργάζονται δεδομένα των πολιτών τους χρειάζονται αναγνωριστικά που το Presidio δεν παρέχει εξ ορισμού.

Η Προεπιλεγμένη Βιβλιοθήκη Οντοτήτων Presidio

Τα προεπιλεγμένα αναγνωριστικά του Presidio περιλαμβάνουν:

Αναγνωριστικά εστιασμένα στις ΗΠΑ:

  • US Social Security Number (SSN)
  • US Passport Number
  • US Driver's License Number (μορφές πολλαπλών πολιτειών)
  • US Bank Account Number
  • US ITIN (Individual Taxpayer Identification Number)
  • US Medical License Number

Καθολικά αναγνωριστικά:

  • Διεύθυνση Email
  • Αριθμός Τηλεφώνου (προτεραιότητα μορφής ΗΠΑ)
  • Διεύθυνση IP
  • Αριθμός Πιστωτικής Κάρτας (αλγόριθμος Luhn)
  • Διεύθυνση Crypto Wallet
  • URL

Γενικές οντότητες κειμένου:

  • PERSON (βάσει NER)
  • LOCATION (βάσει NER)
  • ORGANIZATION (βάσει NER)
  • DATE_TIME (βάσει NER)

Περιορισμένη διεθνής κάλυψη:

  • UK NHS Number
  • UK National Insurance Number (NINO)
  • Αναγνωριστικά Χρηματοπιστωτικής Οντότητας (μερικά)

Σύνολο: ~40 αναγνωριστικά

Τι Χρειάζονται Πραγματικά οι Οργανισμοί ΕΕ

Χρηματοοικονομικά αναγνωριστικά: Το IBAN (International Bank Account Number) εμφανίζεται σχεδόν σε κάθε επιχειρηματικό έγγραφο ΕΕ που αφορά πληρωμές, εμβάσματα, τιμολόγηση και μισθοδοσία. Οι μορφές IBAN ποικίλλουν ανά χώρα αλλά ακολουθούν διεθνές πρότυπο (ISO 13616). Το Presidio δεν έχει προεπιλεγμένο αναγνωριστικό IBAN.

Μια γερμανική fintech που επεξεργάζεται αρχεία πληρωμών πελατών επεξεργάζεται αριθμούς IBAN σε κάθε έγγραφο συναλλαγής. Χωρίς αναγνώριση IBAN, αυτά τα έγγραφα επεξεργάζονται με ενεργή ανίχνευση πιστωτικών καρτών (ανίχνευση αριθμών καρτών) αλλά τα πεδία IBAN (το κύριο αναγνωριστικό πληρωμών ΕΕ) αγνοούνται εντελώς.

Εθνικά φορολογικά αναγνωριστικά:

  • Γερμανικό Steueridentifikationsnummer: 11-ψήφιο αριθμητικό
  • Γαλλικό NIR (Numéro d'Inscription au Répertoire): 13 αλφαριθμητικοί χαρακτήρες
  • Ιταλικό Codice Fiscale: 16 αλφαριθμητικοί χαρακτήρες με δομική επικύρωση
  • Ισπανικό NIF/NIE: 9 χαρακτήρες με επίθημα/πρόθεμα γράμμα
  • Ολλανδικό BSN: 9-ψήφιο με επικύρωση 11-απόδειξης

Κανένα από αυτά δεν βρίσκεται στην προεπιλεγμένη βιβλιοθήκη οντοτήτων του Presidio. Ένας επεξεργαστής μισθοδοσίας ΕΕ που χειρίζεται έγγραφα υπαλλήλων από πολλά κράτη μέλη είναι ουσιαστικά τυφλός στα πιο ευαίσθητα χρηματοοικονομικά αναγνωριστικά τους.

Εθνικά αναγνωριστικά υγείας:

  • UK NHS Number: 10-ψήφιο με έλεγχο modulus-11
  • Γαλλικό Numéro de Sécurité Sociale (NIR): Χρησιμεύει επίσης ως αναγνωριστικό υγείας
  • Γερμανικό Krankenkassennummer: Αλφαριθμητικό, ειδικό ανά ασφαλιστή
  • Ιταλικό Codice Fiscale: Χρησιμοποιείται επίσης ως αναγνωριστικό υγείας
  • Ολλανδικό BSN: Χρησιμοποιείται επίσης για ασφάλεια υγείας

Οι οργανισμοί υγειονομικής περίθαλψης σε ολόκληρη την ΕΕ χρειάζονται αυτά τα αναγνωριστικά για προστασία δεδομένων υγείας ισοδύναμη με HIPAA. Το Presidio παρέχει τον αριθμό UK NHS αλλά χάνει τα αναγνωριστικά υγείας της ηπειρωτικής Ευρώπης.

Ευρωπαϊκές μορφές άδειας οδήγησης: Το Presidio έχει αναγνωριστικά αμερικανικών αδειών οδήγησης (ειδικά ανά πολιτεία). Οι ευρωπαϊκές μορφές άδειας οδήγησης τυποποιούνται βάσει Οδηγίας 2006/126/ΕΚ αλλά ποικίλλουν ανά κράτος μέλος στη δομή τους. Δεν υπάρχουν αναγνωριστικά ευρωπαϊκής άδειας οδήγησης στις προεπιλογές Presidio.

Αριθμοί ΦΠΑ: Οι αριθμοί ΦΠΑ ΕΕ εμφανίζονται σε κάθε επιχειρηματική συναλλαγή. Μορφή: κωδικός χώρας (2 γράμματα) + 8-12 αλφαριθμητικά ψηφία. Το Presidio δεν έχει αναγνωριστικό αριθμού ΦΠΑ. Για επιχειρήσεις ΕΕ που μοιράζονται τιμολόγια, συμβόλαια και εμπορικά έγγραφα, οι αριθμοί ΦΠΑ είναι αναγνωριστικά που συνδέονται με εγγεγραμμένες επιχειρηματικές οντότητες και τους διευθυντές τους.

Μορφές διαβατηρίου ΕΕ: Αναγνώριση αμερικανικού διαβατηρίου στο Presidio, αλλά οι μορφές διαβατηρίου ΕΕ (ειδικά η μορφή Machine Readable Zone) δεν καλύπτονται.

Το Κόστος Μηχανικής για Ανάπτυξη Προσαρμοσμένων Αναγνωριστικών

Όταν οι οργανισμοί ΕΕ αναπτύσσουν Presidio και ανακαλύπτουν το κενό κάλυψης οντοτήτων, η απόκριση είναι συνήθως ανάπτυξη προσαρμοσμένων αναγνωριστικών. Το κόστος:

Χρόνος ανάπτυξης ανά αναγνωριστικό:

  • Έρευνα μορφής αναγνωριστικού: 1-2 ώρες
  • Γραφή κλάσης Python PatternRecognizer: 2-4 ώρες
  • Υλοποίηση regex με λογική επικύρωσης: 2-4 ώρες
  • Ρύθμιση λέξεων πλαισίου για βελτίωση ακρίβειας: 1-2 ώρες
  • Γραφή δοκιμών: 2-3 ώρες
  • Ενσωμάτωση και δοκιμή σε ανάπτυξη: 1-2 ώρες

Ανά αναγνωριστικό: 9-17 ώρες.

Για μια γερμανική fintech που χρειάζεται IBAN + Steuer-ID + ευρωπαϊκή άδεια οδήγησης + γερμανικό ΦΠΑ:

  • 4 προσαρμοσμένα αναγνωριστικά × 13 ώρες μέσο όρο = 52 ώρες μηχανικής
  • Στα €100/ώρα: €5.200 σε ανάπτυξη προσαρμοσμένων αναγνωριστικών

Συν συνεχής συντήρηση καθώς αλλάζουν μορφές, εμφανίζονται νέες περιπτώσεις δοκιμών και οι ενημερώσεις API Presidio απαιτούν τροποποιήσεις αναγνωριστικών.

Συνολικό κόστος για κάλυψη EU GDPR πάνω στο Presidio: €5.200+ αρχικά + συνεχής συντήρηση

Η Εναλλακτική: Διαχειριζόμενες Βιβλιοθήκες Οντοτήτων

Το anonym.legal επεκτείνει το θεμέλιο Presidio με 285+ τύπους οντοτήτων που συντηρεί η ομάδα ανάπτυξης — συμπεριλαμβανομένων των ειδικών για ΕΕ αναγνωριστικών που λείπουν από τις προεπιλογές του Presidio:

Κύρια κάλυψη πέρα από τις προεπιλογές Presidio:

  • IBAN (όλες οι μορφές κρατών μελών ΕΕ)
  • Φορολογικά αναγνωριστικά κρατών μελών ΕΕ (συμπεριλαμβανομένων Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL και άλλων)
  • Εθνικά αναγνωριστικά υγείας ΕΕ
  • Αριθμοί ΦΠΑ (μορφή ΕΕ)
  • Μορφές ευρωπαϊκής άδειας οδήγησης
  • Ευρωπαϊκές μορφές διαβατηρίου
  • Παραλλαγές οντοτήτων σε 48 υποστηριζόμενες γλώσσες

Συντήρηση: Ενημερώσεις βιβλιοθήκης οντοτήτων ωθούνται ως μέρος του managed service. Όταν η Γερμανία εισάγει νέα μορφή φορολογικού αναγνωριστικού, οι χρήστες λαμβάνουν το αναγνωριστικό χωρίς να υποβάλλουν pull request.

Προσαρμοσμένη επέκταση: Για αναγνωριστικά ειδικά για τον οργανισμό που δεν βρίσκονται στη βιβλιοθήκη, ο builder προσαρμοσμένων οντοτήτων επιτρέπει την προσθήκη μοτίβων χωρίς κώδικα Python.

Το Παράδειγμα Γερμανικής Fintech

Μια γερμανική fintech χρειάζεται να ανιχνεύει IBAN, BIC, γερμανικά φορολογικά ID (Steuer-ID) και γερμανικούς αριθμούς εμπορικής εγγραφής (Handelsregisternummer) σε έγγραφα πελατών.

Ποσοστό ανίχνευσης Presidio για αυτούς τους 4 τύπους οντοτήτων: 0%

Όχι χαμηλή ακρίβεια, όχι ψευδώς θετικά — μηδέν ανιχνεύσεις. Κανένας από τους 4 τύπους οντοτήτων δεν εμφανίζεται στην προεπιλεγμένη βιβλιοθήκη οντοτήτων Presidio.

Γραφή προσαρμοσμένων αναγνωριστικών: 4 αναγνωριστικά × 13 ώρες = 52 ώρες = €5.200 στους ρυθμούς μηχανικής.

Χρήση managed βιβλιοθήκης οντοτήτων με όλα τα 4 καλυμμένα: €180/έτος (πρόγραμμα Pro).

Κόστος για επίτευξη ανίχνευσης συμβατής με GDPR αυτών των γερμανικών χρηματοοικονομικών αναγνωριστικών:

  • Διαδρομή Presidio: €5.200 μηχανική + λειτουργικά κόστη Presidio
  • Διαδρομή managed service: €180/έτος, ανίχνευση και των 4 εξ ορισμού

Το χάσμα είναι 28× στο πρώτο έτος. Για κάθε έτος λειτουργίας, ο χρόνος μηχανικής για συντήρηση προσαρμοσμένων αναγνωριστικών προστίθεται στο κόστος Presidio ενώ το κόστος managed service παραμένει σταθερό.

Συμπέρασμα

Τα ~40 προεπιλεγμένα αναγνωριστικά του Presidio εξυπηρετούν καλά τις εστιασμένες στις ΗΠΑ περιπτώσεις χρήσης. Για αναπτύξεις ΕΕ που απαιτούν συμμόρφωση GDPR σε ειδικά αναγνωριστικά κρατών μελών, η κάλυψη εξ ορισμού είναι ανεπαρκής. Το κενό καλύπτεται είτε μέσω ανάπτυξης προσαρμοσμένων αναγνωριστικών (ακριβό, χρονοβόρο) είτε μέσω managed service που συντηρεί κάλυψη ευρωπαϊκών οντοτήτων ως μέρος της συνδρομής.

Για τους οργανισμούς ΕΕ όπου η συμμόρφωση δεν είναι διαπραγματεύσιμη και οι μηχανικοί πόροι είναι περιορισμένοι, η προδημιουργημένη βιβλιοθήκη ευρωπαϊκών οντοτήτων του managed service εξαλείφει ένα έργο προσαρμοσμένης ανάπτυξης 50+ ωρών πριν από την ανωνυμοποίηση πρώτου εγγράφου.

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.