Jedno narzędzie, 45 krajów: ponad 260 encji
Globalne platformy przetwarzają dane osobowe z wielu krajów jednocześnie. Każdy kraj ma własne formaty identyfikatorów. Każdy format ma własne reguły. Jedno narzędzie do wykrywania musi sobie z nimi wszystkimi poradzić. Większość narzędzi tego nie potrafi.
Problem fragmentacji identyfikatorów
Marketplace ze sprzedawcami w 45 krajach otrzymuje bardzo różne dokumenty podczas rejestracji. Brazylijski sprzedawca przesyła CPF — 11 cyfr, z czego dwie to cyfry kontrolne używające konkretnego wzoru ważenia. Indyjski sprzedawca przesyła PAN — 10 znaków, z literami i cyframi na stałych pozycjach. Niemiecki sprzedawca przesyła Steuer-ID — 11 cyfr z sumą kontrolną Luhna. Holenderski sprzedawca przesyła BSN — 9 cyfr z walidacją mod-11.
Każdy format ma inną długość i strukturę. Jeden regex zbudowany dla jednego formatu nie dopasuje pozostałych. Szeroki wzorzec „10–12 cyfr” wychwytuje zbyt wiele: ceny, daty i numery referencyjne. Fałszywe alarmy rosną szybko wraz ze skalą.
Luka 40 identyfikatorów
Większość korporacyjnych narzędzi PII dostarczana jest z około 40 typami identyfikatorów. Do powszechnych należą:
- Amerykański numer Social Security (SSN)
- Format amerykańskiego paszportu
- Amerykańskie prawo jazdy
- Ogólne formaty kart kredytowych z walidacją Luhna
- Adresy e-mail
- Numery telefonów w formacie NANP
- Adresy IP
To dobrze pokrywa zgodność z przepisami w Ameryce Północnej. Nie pokrywa operacji globalnych.
Jak wygląda luka w poszczególnych regionach
Ameryka Południowa: Brazylijski CPF i CNPJ używają algorytmów sum kontrolnych opracowanych przez brazylijski organ fiskalny. Argentyński CUIT używa innej formuły ważonej sumy. Kolumbijski NIT ma własną metodę walidacji. Żaden z tych formatów nie pasuje do wzorców amerykańskich.
Azja: Indyjskie PAN, Aadhaar, GSTIN i dowód wyborcy mają każdy inny format. Japoński My Number ma 12 cyfr. Koreański numer ewidencji ludności i chiński dowód tożsamości wymagają każdy własnego rozpoznawacza.
Państwa członkowskie UE: Pełne pokrycie UE wymaga formatów IBAN dla wszystkich 27 państw członkowskich — każdy ma specyficzną dla kraju długość i format. Wymaga też każdego formatu krajowego dokumentu tożsamości: niemieckiego Steuer-ID, francuskiego NIR, holenderskiego BSN, polskiego PESEL, szwedzkiego Personnummer, słoweńskiego EMŠO, chorwackiego OIB, bułgarskiego EGN i rumuńskiego CNP.
Co pokrywa biblioteka ponad 260 typów encji
Biblioteka ponad 260 encji obejmuje wszystkie 27 krajowych dokumentów tożsamości państw członkowskich UE. Waliduje wszystkie formaty IBAN UE. Pokrywa identyfikatory południowoamerykańskie: brazylijski CPF i CNPJ, argentyński CUIT, kolumbijski NIT. Pokrywa identyfikatory azjatyckie: indyjski PAN, Aadhaar, GSTIN, japoński My Number, koreański RRN. Pokrywa brytyjskie identyfikatory: numer NI, numer NHS, warianty NINO. Pokrywa medyczne identyfikatory: amerykański NPI, numery DEA, formaty MRN szpitali. Pokrywa finansowe identyfikatory: kody SWIFT, formaty BIC, wzorce numerów kont.
Dlaczego pokrycie wykrywania to kwestia zgodności z przepisami
Każda regulacja wymaga, by jej identyfikatory były znajdowane i chronione. RODO obejmuje dane unijnych sprzedawców. LGPD obejmuje dane brazylyjskich sprzedawców. Indyjska ustawa DPDP obejmuje dane indyjskich sprzedawców.
„Odpowiednia ochrona” oznacza, że narzędzie znalazło identyfikator. Pominięty Aadhaar to nie błąd konfiguracji — to błąd pokrycia. Dla platform globalnych ta luka jest różnicą między częściową zgodnością a realną ochroną.
Jedno wdrożenie z ponad 260 encjami obsługuje wszystkie te jurysdykcje. Bez osobnych regionalnych narzędzi. Bez osobnych potoków przetwarzania. Bez ręcznego wzbogacania formatów pomijanych przez narzędzie z 40 rozpoznawaczami.
Szczegóły dotyczące mapowania pokrycia na zobowiązania wynikające z RODO znajdziesz w zasobach dotyczących zgodności z RODO. Informacje o polityce audytu i aktualizacji zamieszczono w szczegółach bezpieczeństwa i zgodności.