Hvorfor europeiske identifikatorer er strukturelt forskjellige
Amerikanskbygde PII-verktøy antar identifikatorstruktur basert på amerikanske formater: Sosial sikkerhetsnumre (AAA-BB-CCCC), amerikanske telefonnumre (XXX-XXX-XXXX), amerikanske førerkortformater etter stat, og amerikanske postnummer (XXXXX eller XXXXX-XXXX). Disse verktøyene ble ikke designet for europeiske identifikatorformater — og europeiske formater er ikke mindre variasjoner av amerikanske formater. De er strukturelt forskjellige, kulturelt forskjellige, og lovlig definert under nasjonal lovgivning som ikke har noe amerikansk ekvivalent.
Den tyske Steuer-ID-en illustrerer den strukturelle forskjellen. Det 11-sifrede nummeret bruker en spesifikk sjekksum-algoritme — det første sifferet kan ikke være 0, ingen siffer kan vises mer enn tre ganger på rad, og en matematisk formel som involverer sifferposisjoner produserer det endelige sjekksifferet. Valideringsalgoritmen er publisert av Bundeszentralamt für Steuern. En amerikansk SSN-regex vil ikke matche en Steuer-ID. Sjekksumvalideringslogikken for en SSN vil ikke validere en Steuer-ID.
Den franske NIR (Numéro de Sécurité Sociale) er 15 sifre. Strukturen er semantisk meningsfull: posisjon 1 koder kjønn (1 = mann, 2 = kvinne), posisjoner 2–3 koder de to siste sifrene av fødselsåret, posisjoner 4–5 koder fødselsmåneden, posisjoner 6–7 koder fødselsdepartementet, posisjoner 8–10 koder kommunen, posisjoner 11–13 koder rekkefølgen innen kommunen, og posisjoner 14–15 er en sjekk-nøkkel avledet fra å dele det 13-sifrede nummeret med 97. NIR-en kan ikke oppdages av noen amerikansk-format identifikator-regex. Det krever lands spesifikk implementering.
Det pan-europeiske samsvars gapet
IBMs rapport om kostnaden ved databrudd i 2025 fant at $10,22 millioner er den gjennomsnittlige kostnaden for et databrudd i helsevesenet — det høyeste av alle sektorer. Helsevesenets høye bruddkostnad reflekterer både volumet av sensitive data involvert og kompleksiteten i samsvarskravene. Når brudd involverer utilstrekkelig de-identifisering av delte forskningsdata — som de gjør i 50 % av tilfellene med brudd i helsevesenet — skaper kombinasjonen av utilstrekkelig EU-identifikatordeteksjon og delte forskningsdata systematisk risiko.
En pan-europeisk HR-programvareleverandør som behandler onboarding-dokumenter for kunder i 18 EU-land med et amerikanskbygget PII-verktøy oppdager ikke 14 av 18 lands nasjonale identifikatorer. Gapet er systematisk: hvert dokument som behandles av det verktøyet som inneholder en Steuer-ID, NIR, personnumer, fødselsnummer eller annen EU-spesifikk identifikator etterlater den identifikatoren eksponert.
Fullstendige EU-dekningskrav
Minimum EU-dekning for GDPR-samsvar krever:
DACH (Tyskland, Østerrike, Sveits): Tysk Steuer-ID og Reisepass; Østerriksk Sozialversicherungsnummer; Sveitsisk AHV-Nr (13-sifret med sjekksiffer)
Frankrike: NIR (15-sifret sosial sikkerhetsnummer), Carte Vitale, SIRET (14-sifret), SIREN (9-sifret)
Storbritannia (etter Brexit GDPR-ekvivalent): NHS-nummer (10-sifret), National Insurance-nummer (AA-NN-NN-NN-A format), UTR (10-sifret)
Nordisk: Svensk Personnummer (YYMMDD-XXXX), Norsk Fødselsnummer (11-sifret), Finsk Henkilotunnus (DDMMYY-XXXX), Dansk CPR (DDMMYY-XXXX)
Sørlige EU: Spansk DNI/NIE, Italiensk Codice Fiscale (16-tegn alfanumerisk), Polsk PESEL (11-sifret), Tsjekkisk Rodne Cislo
Organisasjoner som erstatter amerikanskbygde verktøy med EU-omfattende dekning oppdager vanligvis at deres tidligere de-identifisering oppnådde 30–40 % EU-identifikator dekning — og etterlot flertallet av europeiske nasjonale ID-er i deres "de-identifiserte" datasett.
Kilder: