Cosa manca a Presidio: I 220+ tipi di entità essenziali per la rilevazione di PII conforme al GDPR
Microsoft Presidio viene fornito con circa 40 riconoscitori di entità predefiniti. Per le implementazioni basate negli Stati Uniti che gestiscono documenti centrati sugli Stati Uniti, questo copre le categorie essenziali: SSN, passaporti statunitensi, patenti di guida statunitensi, carte di credito, indirizzi email, numeri di telefono e nomi delle persone.
Per le implementazioni nell'UE, il divario di copertura è significativo. Il GDPR si applica a tutti i dati personali dell'UE indipendentemente dalla nazionalità. Le organizzazioni dell'UE che elaborano i dati dei propri cittadini hanno bisogno di riconoscitori che Presidio non fornisce di default.
La Libreria di Entità Predefinita di Presidio
I riconoscitori predefiniti di Presidio includono:
Identificatori centrati sugli Stati Uniti:
- Numero di Previdenza Sociale (SSN) statunitense
- Numero di Passaporto statunitense
- Numero di Patente di Guida statunitense (formati di più stati)
- Numero di Conto Bancario statunitense
- ITIN statunitense (Numero di identificazione del contribuente)
- Numero di Licenza Medica statunitense
Identificatori universali:
- Indirizzo email
- Numero di telefono (priorità al formato centrato sugli Stati Uniti)
- Indirizzo IP
- Numero di Carta di Credito (algoritmo di Luhn)
- Indirizzo Crypto Wallet
- URL
Entità testuali generiche:
- PERSON (basato su NER)
- LOCATION (basato su NER)
- ORGANIZATION (basato su NER)
- DATE_TIME (basato su NER)
Copertura internazionale limitata:
- Numero NHS del Regno Unito
- Numero di Assicurazione Nazionale del Regno Unito (NINO)
- Identificatori di Entità Finanziarie (alcuni)
Totale: ~40 riconoscitori
Cosa Necessitano Realmente le Organizzazioni dell'UE
Identificatori finanziari: L'IBAN (Numero di Conto Bancario Internazionale) appare praticamente in ogni documento commerciale dell'UE che coinvolge pagamenti, bonifici, fatturazione e stipendi. I formati IBAN variano da paese a paese ma seguono uno standard internazionale (ISO 13616). Presidio non ha un riconoscitore IBAN predefinito.
Una fintech tedesca che elabora registrazioni di pagamento dei clienti gestisce numeri IBAN in ogni documento di transazione. Senza il riconoscimento IBAN, questi documenti vengono elaborati con la rilevazione delle carte di credito attiva (rilevando i numeri delle carte) ma i campi IBAN (l'identificatore di pagamento primario dell'UE) vengono completamente ignorati.
Identificatori fiscali nazionali:
- Steueridentifikationsnummer tedesca: 11 cifre numeriche
- NIR francese (Numéro d'Inscription au Répertoire): 13 caratteri alfanumerici
- Codice Fiscale italiano: 16 caratteri alfanumerici con validazione strutturale
- NIF/NIE spagnolo: 9 caratteri con suffisso/prefisso letterale
- BSN olandese: 9 cifre con validazione di prova 11
Nessuno di questi è presente nella libreria di entità predefinita di Presidio. Un elaboratore di stipendi dell'UE che gestisce documenti dei dipendenti provenienti da più stati membri è effettivamente cieco ai loro identificatori finanziari più sensibili.
Identificatori sanitari nazionali:
- Numero NHS del Regno Unito: 10 cifre con controllo modulo-11
- Numéro de Sécurité Sociale (NIR) francese: Serve anche come ID sanitario
- Krankenkassennummer tedesca: Alfanumerico, specifico per l'assicuratore
- Codice Fiscale italiano: Usato anche come ID sanitario
- BSN dei Paesi Bassi: Usato anche per l'assicurazione sanitaria
Le organizzazioni sanitarie in tutta l'UE hanno bisogno di questi identificatori per la protezione dei dati sanitari equivalente all'HIPAA. Presidio fornisce il Numero NHS del Regno Unito ma manca degli ID sanitari europei continentali.
Formati di patente di guida dell'UE: Presidio ha riconoscitori di patenti di guida statunitensi (specifici per stato). I formati di patente di guida dell'UE sono standardizzati ai sensi della Direttiva 2006/126/CE ma variano da stato membro a stato membro nella loro struttura alfanumerica. Nessun riconoscitore di patente di guida dell'UE nei predefiniti di Presidio.
Numeri di registrazione IVA: I numeri IVA dell'UE appaiono in ogni transazione business-to-business. Formato: codice paese (2 lettere) + 8-12 cifre alfanumeriche. Presidio non ha un riconoscitore di numeri IVA. Per le aziende dell'UE che condividono fatture, contratti e documenti commerciali, i numeri IVA sono identificatori che collegano entità aziendali registrate e i loro direttori.
Formati di passaporto dell'UE: Riconoscimento dei passaporti statunitensi in Presidio, ma i formati di passaporto dell'UE (soprattutto il formato della Zona Leggibile da Macchina) non sono coperti.
Il Costo Ingegneristico dello Sviluppo di Riconoscitori Personalizzati
Quando le organizzazioni dell'UE implementano Presidio e scoprono il divario di copertura delle entità, la risposta è tipicamente lo sviluppo di riconoscitori personalizzati. Il costo:
Tempo di sviluppo per riconoscitore:
- Ricerca del formato identificatore: 1-2 ore
- Scrivere la classe PatternRecognizer in Python: 2-4 ore
- Implementare regex con logica di validazione: 2-4 ore
- Configurare parole di contesto per migliorare la precisione: 1-2 ore
- Scrivere test: 2-3 ore
- Integrare e testare nell'implementazione: 1-2 ore
Per riconoscitore: 9-17 ore.
Per una fintech tedesca che ha bisogno di IBAN + Steuer-ID + patente di guida dell'UE + IVA tedesca + IBAN:
- 4 riconoscitori personalizzati × 13 ore in media = 52 ore ingegneristiche
- A €100/ora: €5,200 nello sviluppo di riconoscitori personalizzati
In aggiunta alla manutenzione continua man mano che i formati cambiano, emergono nuovi casi di test e gli aggiornamenti dell'API di Presidio richiedono modifiche ai riconoscitori.
Costo totale per la copertura GDPR dell'UE oltre a Presidio: €5,200+ iniziali + manutenzione continua
L'Alternativa: Librerie di Entità Gestite
anonym.legal estende la base di Presidio con oltre 285 tipi di entità mantenuti dal team di sviluppo — inclusi gli identificatori specifici per l'UE che mancano nei predefiniti di Presidio:
Punti salienti della copertura oltre ai predefiniti di Presidio:
- IBAN (tutti i formati degli stati membri dell'UE)
- Identificatori fiscali degli stati membri dell'UE (inclusi Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL e altri)
- Identificatori sanitari nazionali dell'UE
- Numeri IVA (formato UE)
- Formati di patente di guida dell'UE
- Formati di passaporto europei
- Tutte le 48 variazioni di entità supportate in lingua
Manutenzione: Gli aggiornamenti della libreria di entità vengono inviati come parte del servizio gestito. Quando la Germania introduce un nuovo formato di identificatore fiscale, gli utenti ottengono il riconoscitore senza dover presentare una richiesta di pull.
Estensione personalizzata: Per identificatori specifici per l'organizzazione non presenti nella libreria, il costruttore di entità personalizzato consente di aggiungere modelli senza codice Python.
L'Esempio della Fintech Tedesca
Una fintech tedesca ha bisogno di rilevare IBAN, BIC, ID fiscali tedeschi (Steuer-ID) e numeri di registrazione commerciale tedeschi (Handelsregisternummer) nei documenti dei clienti.
Tasso di rilevamento predefinito di Presidio per questi 4 tipi di entità: 0%
Non bassa precisione, non falsi positivi — zero rilevamenti. Nessuno dei 4 tipi di entità appare nella libreria di entità predefinita di Presidio.
Scrivere riconoscitori personalizzati: 4 riconoscitori × 13 ore = 52 ore = €5,200 a tariffe ingegneristiche.
Utilizzare la libreria di entità gestita con tutti e 4 coperti: €180/anno (piano Professionale).
Costo per ottenere una rilevazione conforme al GDPR di questi identificatori finanziari tedeschi:
- Percorso Presidio: €5,200 ingegneria + costi operativi di Presidio
- Percorso del servizio gestito: €180/anno, rilevando tutti e 4 di default
Il divario è di 28 volte nel primo anno. Per ogni anno di operazione, il tempo di ingegneria per la manutenzione del riconoscitore personalizzato si aggiunge al costo di Presidio mentre il costo del servizio gestito rimane fisso.
Conclusione
I ~40 riconoscitori predefiniti di Presidio servono bene i casi d'uso centrati sugli Stati Uniti. Per le implementazioni nell'UE che richiedono conformità al GDPR attraverso identificatori specifici per stato membro, la copertura out-of-the-box è insufficiente. Il divario viene colmato o attraverso lo sviluppo di riconoscitori personalizzati (costoso, dispendioso in termini di tempo) o un servizio gestito che mantiene la copertura delle entità dell'UE come parte dell'abbonamento.
Per le organizzazioni dell'UE in cui la conformità è non negoziabile e le risorse ingegneristiche sono limitate, la libreria di entità dell'UE pre-costruita del servizio gestito elimina un progetto di sviluppo personalizzato di oltre 50 ore prima dell'anonimizzazione del primo documento.
Fonti: