Späť na blogGDPR a Dodržiavanie

Globálna Medzera PII Identifikátorov: SSN vs. CPF vs.

285+ entity typu detekcie v anonym.legal — ale globálne sú v skutočnosti 1 000+ národných PII identifikátorov.

April 20, 20268 min čítania
global PII coverageEU identifier detectionSteuer-ID French NIRBrazilian CPF285+ entity types GDPR

Problém: Medzinárodní Compliance

Firemní rozširuje globálne:

  • USA: SSN (9 číslic, formát XXX-XX-XXXX)
  • Brazília: CPF (11 číslic, X.XXX.XXX/XXXX-XX)
  • India: Aadhaar (12 číslic, bez formátu)
  • Kanada: SIN (9 číslic)
  • UK: National Insurance Number (9 znakov)
  • Nemecko: Steuer-Identifikationsnummer (11 číslic)
  • Francúzsko: Numéro de Sécurité Sociale (15 číslic)
  • Japonsko: My Number (12 číslic)
  • Južná Kórea: Resident Registration Number (13 číslic)
  • Rusko: SNILS (11 číslic)
  • Brazília, India, Ázia, Afrika... — každá krajina má svoj vlastný PII identifikátor

Otázka: Ako môžu nástroje detekcie pokryť všetkých 195 krajín × 1-10 identifikátorov na krajinu = 1 000+ možných formátov?

Príklady Národných PII

KrajinaIdentifikátorFormatPríklad
USASSNXXX-XX-XXXX123-45-6789
KanadaSINXXX XXX XXX123 456 789
MexicoRFCXXXXXX##########LRXS910402
BrazíliaCPFXXX.XXX.XXX/XXXX-XX123.456.789/10-11
ArgentinaDNIXX.XXX.XXX12.345.678
ChileRUTXX.XXX.XXX-X12.345.678-9
ColombiaCédulaX.XXX.XXX.XXX1.234.567.890
PeruDNIXXXXXXXX12345678
ŠpanielskoNIEX.XXXXXXX-X12.345.678-A
FrancúzskoSIRET/SIREN14 číslic12345678901234
NemeckoSteuerID11 číslic12 345 678 901
TalianskoCodice Fiscale16 znakovRSSMRA85R05F205X
HolandskoBSN9 číslic123456789
BelgickoRRNU12 číslic85.07.01.001.97
ŠvédskoPersonnummerYYYYMMDD-XXXX850701-1234
DánskoCPRDDMMYY-XXXX010785-1234
PoľskoPESEL11 číslic85070100001
ČeskoRodné čísloYYMMDDXXXX850701/0001
MaďarskoTAJ9 číslic123456789
RumunskoCNP13 číslic1234567890123
RuskoSNILS11 číslic12345678901
UkrajinaDRFO10 číslic1234567890
IzraelID Number9 číslic123456789
Saúdska ArábiaIqama10 číslic1234567890
IndiaAadhaar12 číslic123456789012
PakistanCNIC13 číslic1234-1234567-8
BangladéšNID10-17 číslic1234567890123
ThajskoID Number13 číslic1234567890123
FilipínySSS10 číslic12-3456789-0
IndonéziaNIK16 číslic1234567890123456
VietnamCCCD9-18 číslic123456789
JaponskoMy Number12 číslic123456789012
Južná KóreaRRN13 číslic (YYMMDD-XXXXXXX)850701-1234567
ČínaID Number18 číslic123456789012345678
AustráliaTFN9 číslic123456789
Nový ZélandIRD9 číslic123456789
Južná АфрикаID Number13 číslic1234567890123
EgypteNational ID14 číslic12345678901234
NigériaNIN11 číslic12345678901

Technické Výzvy

Výzva 1: Formát

  • SSN: XXX-XX-XXXX (pomlčka na fixných pozíciách)
  • CPF: XXX.XXX.XXX/XXXX-XX (bodka a lomítko na fixných pozíciách)
  • Aadhaar: XXXX-XXXX-XXXX alebo bez pomlčiek
  • Rusko SNILS: XX-XXX-XXX-XX alebo bez pomlčiek

Regex sa líšia — a keď sa formát zmení, detekcia zlyháva.

Výzva 2: Checksum

  • Niektoré PII mať checksum (povinný poslednú číslicu):
    • Taliansko Codice Fiscale: posledná číslica je checksum (modulní kontrola)
    • Švédsko Personnummer: kontrolná číslica (Luhn algoritmus)
    • Česko Rodné číslo: kontrolná číslica (modulo-11)
  • Niekedy máte falošné čísla bez správneho checksumu

Výzva 3: Kontext

  • Niektoré PII by mohli byť identifikované bez čísla:
    • Meno + číslo pacienta = PHI (zdravotné)
    • Meno + dátum narodenia + mesto = PII (kvázi-identifikátor)
  • Kontextové detekcie sú komplexné

Ako Nástroje Pokrývajú Medzeru

Úroveň 1: Regex Recognizers (Jednoduché)

  • Nájdite SSN: \d{3}-\d{2}-\d{4}
  • Nájdite CPF: \d{3}\.\d{3}\.\d{3}/\d{4}-\d{2}
  • Počet Regex: 100–200 pre všetky krajiny

Výhody: Rýchly, žiadne školenie Nevýhody: Nedetekuje varianty formátu; nefunguje bez pomlčiek/bodiek

Úroveň 2: NLP Recognizers (Moderná)

  • Detekuje meno + dátum narodenia + mesto ako PII
  • Detekuje telefón (XXX) XXX-XXXX bez čísla
  • Používajú NLP model s označením s entitmi

Výhody: Flexibilný; detekuje varianty Nevýhody: Pomalší; vyžaduje školenie; chyby falošne pozitívne

Úroveň 3: Checksum Validation (Presnosť)

  • Aadhaar: 10000000000000 + 10999999999999 bez kontroly
  • PESEL (Poľsko): Overuje modulo-11 checksum
  • Süderlandické personnummer: Overuje Luhn algoritmus

Výhody: Vysoká presnosť Nevýhody: Musíte vedieť algoritmus pre každú krajinu

Budúcosť: Lokálne Nástroje

Otázka: Ako môžu jednotliví pracovníci zistiť PII vo svojom jazyku a krajine?

Odpovedať: Lokálne nástroje:

  • Brazília: anonym.legal/pt-BR — detekuje CPF, RG, CNPJ
  • India: anonym.legal/hi — detekuje Aadhaar, PAN
  • Japonsko: anonym.legal/ja — detekuje My Number
  • Francúzsko: anonym.legal/fr — detekuje SIRET, NIR

Každá lokalizácia má:

  • Regex pre národných identifikátorov
  • Checksum validácia (ak je potrebný)
  • Kontext detekcia (meno + číslo pacienta v zdravotníckych dokumentoch)

Klávesnica správu: Globálne PII identifikátorov sú 1 000+. Žiadny jednotný nástroj ich nemôže pokryť všetky — lokálne nástroje sú potrebné.

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.