Tagasi BlogisseGDPR ja Vastavus

Euroopa identifikaatori vahe: Miks USA ehitatud PII...

Üldised PII tööriistad on ehitatud USA identifikaatori ümber. Saksamaa Steuer-ID, Prantsusmaa NIR...

April 19, 20268 min lugemist
EU identifier gapSteuer-ID detectionFrench NIR anonymizationSwedish PersonnummerNordic identifier GDPR

Miks Euroopa identifikaatorid on struktuurilt erinevad

USA ehitatud PII tööriistad eeldavad identifikaatori struktuur Ameerika vormingute alusel: Sotsiaalse Turvalisuse Numbrid (AAA-BB-CCCC), USA telefonid (XXX-XXX-XXXX), USA juhendi litsentsi vormingud osariigi kohta, ja USA ZIP-koodid (XXXXX või XXXXX-XXXX). Neid tööriistade ei ole kujundatud Euroopa identifikaatori vormingute — ja Euroopa vormingud ei ole väikeste muudatuste USA vormingutest. Nad on struktuurilt erinevad, kultuuriliselt erinevad, ja seaduslikult määratletud rahvusliku õiguse alusel, millel USA ekvivalenti puudub.

Saksamaa Steuer-ID näitab struktuurse erinevuse. 11 numbri arv kasutab konkreetne kontrollsumma algoritm — esimene number ei saa olema 0, numbrit ei saa ilmuda rohkem kui kolm korda järjestikku, ja matemaatiline valem numbrite asukoha seisuhtas arvuta lõplik kontroll numbrit. Valideerimise algoritm on avaldatud Bundeszentralamt für Steuern. USA SSN regex ei vasta Steuer-ID. Kontrollsumma valideerimise loogika SSN jaoks ei valida Steuer-ID.

Prantsusmaa NIR (Numéro de Sécurité Sociale) on 15 numbri. Struktuur on semantiliselt tähenduslik: asukoht 1 kodeerib sugu (1 = mees, 2 = naine), asukohad 2-3 kodeerivad viimase kahe numbri sünniaastasse, asukohad 4-5 kodeerivad sünni kuud, asukohad 6-7 kodeerivad sünni osakonda, asukohad 8-10 kodeerivad kommuuni, asukohad 11-13 kodeerivad järjekorras kommuuni lõikes, ja asukohad 14-15 on kontroll võti, mis on saadud 13 numbri jagamises 97. NIR pole lihtsalt number — see on dekooderitav dokumenteeritud struktuuri alusel.

Avastamise lünk: Saksamaa Steuer-ID

Geneerilised PII tööriistade lüngad Steuer-ID avastamisel:

Struktuuri kaalega:

  • Steuer-ID = 11 numbrit
  • SSN = 11 märki (XXX-XX-XXXX), 9 numbrit ilma sidumiseta
  • Regex /\d{11}/ langeb kokku, kuid Steuer-ID kontrollsumma kehtivusel ei kutsutakse tavaliselt

Kontrollsumma valideerimise:

Steuer-ID kontrollsumma (näide: 36 345 278 910):
1. Esimene numbrit (3) ei saa olema 0 ✓
2. Ükski numbrit üle 3 järjestikku ✗ (6,5,2 ok, 7,8,9,1 ok)
3. Kontrollsumma = (3*10 + 6*9 + 3*8 + 4*7 + 5*6 + 2*5 + 7*4 + 8*3 + 9*2 + 1*1) % 11

Geneerilised tööriistade enamasti märgistada /\d{11}/ nagu potentsiaalse Steuer-ID, kuid ei valideeri kontrollsummat. Seega:

  • Tõesed Steuer-ID-d tuvastavad (36 345 278 910 ✓)
  • Vale positiivid: kummaline 11 numbrit, mis pole tegelikult Saksamaa Steuer-ID-d (12 345 678 901, vale kontrollsumma, kuid /\d{11}/ sobib)

Nõustamise mõju: Riikide kohtaamises identifikaatorid

Organisatsioonid GDPR jaoks nõuavad:

Saksamaa:

  • Steuer-ID kontrollsumma valideerimise, mitte ainult regexiga
  • Sozialversicherungsnummer (nimetatud identifikaatorite) muutumine

Prantsusmaa:

  • NIR struktureeritud valideerimise (positsioonide 1-13 kontroll pos 14-15)
  • SIREN/SIRET (business registri numbrid)

Põhjamaa:

  • Rootsi Personnummer (12 numbrit, kontrollsumma kasutades modulo 10)
  • Norra Fodselsnummer (11 numbrit, Luhn algoritm + avalikult osast)
  • Taani CPR-nummer (10 numbrit, seksioon ja sünni kuupäev kodeeritud)

Holandus:

  • BSN (Burger Service Nummer): 9 numbrit, "11-proef" valideerimise (11 × esimene + 10 × teine + ... + 2 × üheksas) mod 11 = 0

Geneerilised tööriistaled puuduvad neljad lõpust neist valideerimisest, tekitades hästi väikes valehte positiivsed (käsitsi ülevaatus nõutav) ja valehe negatiivide (õigesti identifikaatorid puuduvad).

Euroopa identifikaatori tuvastamise teostus

Organisatsioonid edendada Euroopa identifikaatori avastamisele:

1. Riigi spetsiifikat recognizerite:

  • Saksamaa: Steuer-ID valideerimise, Sozialversicherungsnummer
  • Prantsusmaa: NIR kontrollsumma valideerimise, SIREN/SIRET
  • Põhjamaa: Personnummer Luhn valideerimise
  • Holandus: BSN 11-proef valideerimise

2. Keele spetsiifikat NER:

  • Saksamaa keele NER mudeli täpsus German-language dokumentide
  • Prantsusmaa keele NER mudeli täpsus French-language dokumentide
  • Rootsi, Norra, Taani mudeli täpsus Põhjamaade dokumentide

3. Andmete minimaliseerimine ohud:

  • Pseudonüümsuse kontrollsumma algoritme (Steuer-ID, BSN) eemaldamiseks avastamise eest
  • Näiteks: "Steuer-ID 36 345 278 910" → "Steuer-ID ******** 910" (esimene 8 numbrit asendatud)

Allikad:

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.