Проблема US-центричного інструменту PII
Більшість інструментів виявлення PII були побудовані у США для US-форматів даних. Номер соціального страхування (SSN) — 9 цифр у форматі AAA-BB-CCCC, з задокументованими номерами зон, групових номерів та серійних номерів — був основною метою проектування. Інструменти, побудовані навколо виявлення SSN, надійно виявляють SSN. Вони також можуть виявляти телефонні номери, електронні адреси та формати водійських прав США. Вони систематично пропускають формати ідентифікаторів, що використовуються в усіх інших країнах.
GDPR не визнає US-центричність як виключення з відповідності. Німецький Steuer-ID (Steuerliche Identifikationsnummer) — це 11-значний ідентифікаційний номер платника податків, виданий Bundeszentralamt für Steuern, зі специфічним алгоритмом контрольної суми. Він ідентифікує жителів Німеччини так само особисто, як SSN ідентифікує американців. GDPR Стаття 4 визначає персональні дані як «будь-яку інформацію, що стосується ідентифікованої або ідентифікованої фізичної особи» — Steuer-ID є персональними даними за GDPR.
Порівняльна структура ідентифікаторів
Бразильський CPF (Cadastro de Pessoas Físicas) Формат: XXX.XXX.XXX-XX (11 цифр). Два останні символи — контрольні цифри, похідні від конкретного алгоритму модульної арифметики. LGPD Бразилії трактує CPF як унікальний ідентифікатор фізичних осіб, еквівалентний за чутливістю SSN. Понад 210 мільйонів CPF зареєстровано — кожен дорослий і більшість дітей в Бразилії мають CPF.
Індійський Aadhaar Формат: 12-значне число, без розділювачів або стандартних форматів відображення. Aadhaar є унікальним загальнонаціональним біометричним ідентифікатором, виданим UIDAI. Понад 1,3 мільярда Aadhaar активні. Індійський Закон про захист цифрових персональних даних (DPDP) класифікує Aadhaar як «конфіденційні особисті дані». Порушення алгоритму перевірки Aadhaar (алгоритм Верхоффа) у виявленні не є необов'язковим — воно є обов'язковим для DPDP-відповідності.
UAE Emirates ID Формат: 784-YYYY-XXXXXXX-C (15 цифр). «784» — числовий код країни UAE. YYYY — рік народження. XXXXXXX — 7-значний унікальний номер. C — одна контрольна цифра. Emirates ID є основним ідентифікатором особи для всіх резидентів UAE, видається Federal Authority for Identity and Citizenship.
Французький NIR (Numéro d'inscription au répertoire) Також відомий як «номер соціального страхування». Формат: 13 цифр плюс 2-значний ключ. Перша цифра: стать (1=чоловіча, 2=жіноча). Наступні дві: рік народження. Наступні дві: місяць народження. Наступні п'ять: код департаменту/країни народження. Наступні три: порядковий номер. Останні дві: контрольний ключ. NIR є особистими даними за GDPR та підлягає специфічним французьким вимогам захисту.
Шведський Personnummer Формат: YYYYMMDD-XXXX або YYYYMMDD+XXXX (для людей старше 100 років). Перші 6 або 8 цифр — дата народження. Три наступні — порядковий номер (непарне число = чоловік, парне = жінка). Остання — контрольна цифра за алгоритмом Луна. Personnummer є обов'язковим для всіх шведських транзакцій від охорони здоров'я до банківської справи.
Сфера виявлення для відповідності EU
Відповідність GDPR вимагає виявлення ідентифікаторів для всіх держав-членів ЄС:
| Країна | Ідентифікатор | Формат |
|---|---|---|
| Австрія | Sozialversicherungsnummer | DDDD DDMMYY (10 цифр) |
| Бельгія | Rijksregisternummer / NIE | YY.MM.DD-XXX.CC |
| Хорватія | OIB | 11 цифр + алгоритм Луна |
| Кіпр | Αριθμός Ταυτότητας | Буква + 6 цифр |
| Чехія | Rodné číslo | YYMMDD/XXXX |
| Данія | Personnummer / CPR | DDMMYY-XXXX |
| Естонія | Isikukood | 11 цифр, похідних від дати народження |
| Фінляндія | Henkilötunnus | DDMMYY-XXXX |
| Франція | NIR | 13 цифр + 2-значний ключ |
| Німеччина | Steuer-ID | 11 цифр |
| Греція | ΑΦΜ / ΑΜΚΑ | 9 та 11 цифр |
| Угорщина | Adóazonosító jel / TAJ | 10 та 9 цифр |
| Ірландія | PPS Number | 7 цифр + 1-2 літери |
| Італія | Codice Fiscale | 16 буквено-цифрових символів |
| Латвія | Personas kods | DDMMYY-XXXXX |
| Литва | Asmens kodas | 11 цифр |
| Люксембург | Numéro National | 13 цифр |
| Мальта | Identity Card | 7 цифр + буква |
| Нідерланди | BSN | 9 цифр, алгоритм 11-proof |
| Польща | PESEL | 11 цифр |
| Португалія | NIF / NISS | 9 цифр |
| Румунія | CNP | 13 цифр |
| Словаччина | Rodné číslo | YYMMDD/XXXX |
| Словенія | EMŠO | 13 цифр |
| Іспанія | DNI / NIE | 8 цифр + літера / X+7 цифр |
| Швеція | Personnummer | YYYYMMDD-XXXX |
Жоден US-побудований інструмент з бібліотекою виявлення SSN не охоплює всіх цих форматів. Відповідність GDPR за Статтею 32 вимагає «відповідних технічних заходів» — що означає виявлення PII, яка фактично існує у набі даних, а не лише PII, яку інструмент вміє шукати.
Джерела:
- GDPR Article 4 — Definitions (gdpr.eu)
- GDPR Article 32 — Security of processing (gdpr.eu)
- Brazilian LGPD — Lei Geral de Proteção de Dados (planalto.gov.br)
- India DPDP Act 2023 (meity.gov.in)