Il problema degli strumenti PII centrati sugli Stati Uniti
La maggior parte degli strumenti di rilevamento PII è stata costruita negli Stati Uniti per formati di dati statunitensi. Il Numero di Previdenza Sociale — 9 cifre nel formato AAA-BB-CCCC, con numeri di area documentati, numeri di gruppo e numeri seriali — era l'obiettivo principale del design. Gli strumenti costruiti attorno al rilevamento dei SSN rilevano in modo affidabile i SSN. Possono anche rilevare numeri di telefono, indirizzi email e formati di patenti di guida statunitensi. Sistematicamente, ignorano i formati di identificatore utilizzati in ogni altro paese.
Il GDPR non riconosce la centralità degli Stati Uniti come un'esenzione dalla conformità. Un Steuer-ID tedesco (Steuerliche Identifikationsnummer) è un numero di identificazione fiscale di 11 cifre emesso dal Bundeszentralamt für Steuern, con un algoritmo di checksum specifico validato contro una cifra di checksum. Identifica i residenti tedeschi in modo personale, così come un SSN identifica gli americani. L'Articolo 4 del GDPR definisce i dati personali come "qualsiasi informazione relativa a una persona fisica identificata o identificabile" — un Steuer-ID è un dato personale ai sensi del GDPR indipendentemente dal fatto che il tuo strumento PII conosca il formato.
Sono state emesse sanzioni GDPR per l'esposizione di PII specifiche per i paesi dell'UE in sistemi di dati che hanno elaborato i dati dei residenti dell'UE utilizzando strumenti configurati solo per formati statunitensi. Il divario di conformità non è teorico — ha prodotto azioni di enforcement.
Il panorama degli identificatori europei
La scala del divario di copertura degli identificatori europei:
Germania: Steuer-ID (11 cifre, checksum), Sozialversicherungsnummer (12 cifre, formato strutturale), Reisepass (passaporto di 10 cifre con codici specifici dell'autorità emittente)
Francia: NIR/Numero de Securite Sociale (15 cifre che codificano il genere [1], anno di nascita [2], mese di nascita [2], dipartimento [2], comune [3], numero di registro [3], chiave di controllo [2]), Carte Vitale (carta di 15 cifre NIR), SIRET (identificatore aziendale di 14 cifre), SIREN (9 cifre)
Svezia: Personnummer (10 cifre, formato YYMMDD-XXXX con le ultime due cifre che identificano la contea di nascita nei numeri più vecchi), Samordningsnummer (numero di coordinamento per non residenti, formato simile con giorno + 60)
Norvegia: Fodselsnummer (11 cifre, formato DDMMYYNNNKK con il genere nelle cifre centrali), D-nummer (numero di coordinamento, giorno + 40)
Brasile: CPF (Cadastro de Pessoas Fisicas, 11 cifre con due cifre di controllo), CNPJ (identificatore aziendale di 14 cifre)
India: Aadhaar (identità biometrica di 12 cifre, con cifra di controllo dell'algoritmo Verhoeff), PAN (alfanumerico di 10 caratteri per l'imposta sul reddito)
Emirati Arabi Uniti: Emirates ID (15 cifre: 784-anno di nascita-sequenza-controllo)
Un manager HR globale che elabora i dati stipendiali per dipendenti in 12 paesi ha bisogno di uno strumento che rilevi tutti i formati di identificazione nazionale dei 12 paesi in un'unica passata — senza configurare 12 strumenti specifici per paese separati o mantenere 12 librerie regex separate.
L'architettura dei tipi di entità 285+
La libreria dei tipi di entità 285+ copre l'intero set di identificatori degli stati membri dell'UE, i principali identificatori APAC (Aadhaar, PAN, CPF, CNPJ, Emirates ID, ID del cittadino thailandese) e gli identificatori statunitensi (SSN, EIN, patente di guida per stato) in un unico motore di rilevamento. La libreria è mantenuta e aggiornata man mano che i formati specifici per paese evolvono.
Fonti: