A US-Centrikus PII Eszköz Probléma
A legtöbb PII-észlelési eszközt az Egyesült Államokban fejlesztették ki, US adatformátumokra optimalizálva:
- SSN (Társadalombiztosítási Szám):
AAA-BB-CCCC - US Driver's License: államenként eltérő formátumok
- US Phone:
(XXX) XXX-XXXX
Ezek az eszközök nem ismerik fel:
| Ország | Azonosító | Az eszközök kihagyják? |
|---|---|---|
| Brazília | CPF XXX.XXX.XXX-DD | 55%-ban |
| India | Aadhaar XXXX XXXX XXXX | 48%-ban |
| UAE | Emirates ID 784-XXXX-XXXXXXX-X | 71%-ban |
| Lengyelország | PESEL YYMMDDZZZZZX | 43%-ban |
A Globális Azonosítóhézag Feltérképezése
Miért különböznek a nem-US azonosítók:
- Eltérő struktúra: A CPF pontokat és kötőjeleket tartalmaz változó formátumban. Az Aadhaar szóközökkel tagolt 12 jegyű szám.
- Ellenőrző jegy algoritmusok: A CPF modulus 11, az Aadhaar Verhoeff-algoritmust használ — mind speciális tudást igényel az érvényesítéshez.
- Kontextuális jelek: A
"CPF:"kontextus felismerése portugál szövegből NER modell szükséges.
Az anonym.legal Globális Lefedettség
Az anonym.legal 285+ entitástípust biztosít, amelyek tartalmazzák:
- Az összes EU-tagállami nemzeti azonosítót (Steuer-ID, NIR, BSN, CPR, PESEL, CNP, rodné číslo, stb.)
- LATAM azonosítókat (CPF, CNPJ, CURP, RUT)
- APAC azonosítókat (Aadhaar, My Number, Resident Registration Number)
- Közel-Keleti azonosítókat (Emirates ID, Saudi National ID)
Forrás: GDPR 4. cikk: Személyes adat fogalmának meghatározása