Problém: Medzinárodní Compliance
Firemní rozširuje globálne:
- USA: SSN (9 číslic, formát XXX-XX-XXXX)
- Brazília: CPF (11 číslic, X.XXX.XXX/XXXX-XX)
- India: Aadhaar (12 číslic, bez formátu)
- Kanada: SIN (9 číslic)
- UK: National Insurance Number (9 znakov)
- Nemecko: Steuer-Identifikationsnummer (11 číslic)
- Francúzsko: Numéro de Sécurité Sociale (15 číslic)
- Japonsko: My Number (12 číslic)
- Južná Kórea: Resident Registration Number (13 číslic)
- Rusko: SNILS (11 číslic)
- Brazília, India, Ázia, Afrika... — každá krajina má svoj vlastný PII identifikátor
Otázka: Ako môžu nástroje detekcie pokryť všetkých 195 krajín × 1-10 identifikátorov na krajinu = 1 000+ možných formátov?
Príklady Národných PII
| Krajina | Identifikátor | Format | Príklad |
|---|---|---|---|
| USA | SSN | XXX-XX-XXXX | 123-45-6789 |
| Kanada | SIN | XXX XXX XXX | 123 456 789 |
| Mexico | RFC | XXXXXX########## | LRXS910402 |
| Brazília | CPF | XXX.XXX.XXX/XXXX-XX | 123.456.789/10-11 |
| Argentina | DNI | XX.XXX.XXX | 12.345.678 |
| Chile | RUT | XX.XXX.XXX-X | 12.345.678-9 |
| Colombia | Cédula | X.XXX.XXX.XXX | 1.234.567.890 |
| Peru | DNI | XXXXXXXX | 12345678 |
| Španielsko | NIE | X.XXXXXXX-X | 12.345.678-A |
| Francúzsko | SIRET/SIREN | 14 číslic | 12345678901234 |
| Nemecko | SteuerID | 11 číslic | 12 345 678 901 |
| Taliansko | Codice Fiscale | 16 znakov | RSSMRA85R05F205X |
| Holandsko | BSN | 9 číslic | 123456789 |
| Belgicko | RRNU | 12 číslic | 85.07.01.001.97 |
| Švédsko | Personnummer | YYYYMMDD-XXXX | 850701-1234 |
| Dánsko | CPR | DDMMYY-XXXX | 010785-1234 |
| Poľsko | PESEL | 11 číslic | 85070100001 |
| Česko | Rodné číslo | YYMMDDXXXX | 850701/0001 |
| Maďarsko | TAJ | 9 číslic | 123456789 |
| Rumunsko | CNP | 13 číslic | 1234567890123 |
| Rusko | SNILS | 11 číslic | 12345678901 |
| Ukrajina | DRFO | 10 číslic | 1234567890 |
| Izrael | ID Number | 9 číslic | 123456789 |
| Saúdska Arábia | Iqama | 10 číslic | 1234567890 |
| India | Aadhaar | 12 číslic | 123456789012 |
| Pakistan | CNIC | 13 číslic | 1234-1234567-8 |
| Bangladéš | NID | 10-17 číslic | 1234567890123 |
| Thajsko | ID Number | 13 číslic | 1234567890123 |
| Filipíny | SSS | 10 číslic | 12-3456789-0 |
| Indonézia | NIK | 16 číslic | 1234567890123456 |
| Vietnam | CCCD | 9-18 číslic | 123456789 |
| Japonsko | My Number | 12 číslic | 123456789012 |
| Južná Kórea | RRN | 13 číslic (YYMMDD-XXXXXXX) | 850701-1234567 |
| Čína | ID Number | 18 číslic | 123456789012345678 |
| Austrália | TFN | 9 číslic | 123456789 |
| Nový Zéland | IRD | 9 číslic | 123456789 |
| Južná Африка | ID Number | 13 číslic | 1234567890123 |
| Egypte | National ID | 14 číslic | 12345678901234 |
| Nigéria | NIN | 11 číslic | 12345678901 |
Technické Výzvy
Výzva 1: Formát
- SSN: XXX-XX-XXXX (pomlčka na fixných pozíciách)
- CPF: XXX.XXX.XXX/XXXX-XX (bodka a lomítko na fixných pozíciách)
- Aadhaar: XXXX-XXXX-XXXX alebo bez pomlčiek
- Rusko SNILS: XX-XXX-XXX-XX alebo bez pomlčiek
Regex sa líšia — a keď sa formát zmení, detekcia zlyháva.
Výzva 2: Checksum
- Niektoré PII mať checksum (povinný poslednú číslicu):
- Taliansko Codice Fiscale: posledná číslica je checksum (modulní kontrola)
- Švédsko Personnummer: kontrolná číslica (Luhn algoritmus)
- Česko Rodné číslo: kontrolná číslica (modulo-11)
- Niekedy máte falošné čísla bez správneho checksumu
Výzva 3: Kontext
- Niektoré PII by mohli byť identifikované bez čísla:
- Meno + číslo pacienta = PHI (zdravotné)
- Meno + dátum narodenia + mesto = PII (kvázi-identifikátor)
- Kontextové detekcie sú komplexné
Ako Nástroje Pokrývajú Medzeru
Úroveň 1: Regex Recognizers (Jednoduché)
- Nájdite SSN:
\d{3}-\d{2}-\d{4} - Nájdite CPF:
\d{3}\.\d{3}\.\d{3}/\d{4}-\d{2} - Počet Regex: 100–200 pre všetky krajiny
Výhody: Rýchly, žiadne školenie Nevýhody: Nedetekuje varianty formátu; nefunguje bez pomlčiek/bodiek
Úroveň 2: NLP Recognizers (Moderná)
- Detekuje
meno + dátum narodenia + mestoako PII - Detekuje
telefón (XXX) XXX-XXXXbez čísla - Používajú NLP model s označením s entitmi
Výhody: Flexibilný; detekuje varianty Nevýhody: Pomalší; vyžaduje školenie; chyby falošne pozitívne
Úroveň 3: Checksum Validation (Presnosť)
- Aadhaar:
10000000000000 + 10999999999999bez kontroly - PESEL (Poľsko): Overuje modulo-11 checksum
- Süderlandické personnummer: Overuje Luhn algoritmus
Výhody: Vysoká presnosť Nevýhody: Musíte vedieť algoritmus pre každú krajinu
Budúcosť: Lokálne Nástroje
Otázka: Ako môžu jednotliví pracovníci zistiť PII vo svojom jazyku a krajine?
Odpovedať: Lokálne nástroje:
- Brazília:
anonym.legal/pt-BR— detekuje CPF, RG, CNPJ - India:
anonym.legal/hi— detekuje Aadhaar, PAN - Japonsko:
anonym.legal/ja— detekuje My Number - Francúzsko:
anonym.legal/fr— detekuje SIRET, NIR
Každá lokalizácia má:
- Regex pre národných identifikátorov
- Checksum validácia (ak je potrebný)
- Kontext detekcia (meno + číslo pacienta v zdravotníckych dokumentoch)
Klávesnica správu: Globálne PII identifikátorov sú 1 000+. Žiadny jednotný nástroj ich nemôže pokryť všetky — lokálne nástroje sú potrebné.