Глобальні PII-ідентифікатори: SSN, CPF, Aadhaar та інші
Проблема американоцентричних PII-інструментів
Більшість PII-інструментів створено у Сполучених Штатах. Вони орієнтовані на американські формати даних. Номер соціального страхування (SSN) складається з дев'яти цифр у форматі AAA-BB-CCCC. Його сегменти зони, групи та серійного номера підпорядковуються задокументованим правилам. Американські інструменти добре його виявляють. Вони також розпізнають телефонні номери США, електронні адреси та водійські посвідчення. Але вони пропускають кожен національний ідентифікатор, що використовується за межами США.
GDPR не передбачає винятку для американських компаній. Візьмемо, наприклад, німецький Steuer-ID. Це 11-значний податковий ідентифікатор. Його видає Bundeszentralamt für Steuern. Остання цифра є контрольною сумою. Він ідентифікує резидента Германії так само, як SSN ідентифікує американця. Стаття 4 GDPR охоплює «будь-яку інформацію, що стосується ідентифікованої або ідентифікованої фізичної особи». Steuer-ID відповідає цьому визначенню. Це персональні дані. Незалежно від того, чи знає ваш інструмент цей формат.
Штрафи за GDPR слідували за розкриттям ідентифікаторів, специфічних для ЄС, у системах, що використовують інструменти лише для США. Прогалина у відповідності є реальною. Наслідки правозастосування мали місце. Перегляньте наш посібник з відповідності GDPR для контексту.
Ландшафт ідентифікаторів у Європі
Прогалина у покритті є значною. Ось розбивка по країнах.
Германія: Steuer-ID — 11 цифр із контрольною сумою. Sozialversicherungsnummer — 12 полів, структурованих. Reisepass — 10 символів із кодами органів влади.
Франція: NIR — національний ідентифікатор соціального страхування. Він складається з 15 цифр, що кодують стать, рік народження, місяць народження, департамент, комуну та контрольний ключ. SIRET має 14 цифр. SIREN — дев'ять.
Швеція: Personnummer використовує формат RRMMDD-XXXX. Samordningsnummer охоплює нерезидентів. Значення дня зміщується на 60.
Норвегія: Fødselsnummer містить 11 значень у форматі ДДММРРНННКК. Стать закодована в середній групі. D-nummer зміщує значення дня на 40.
Бразилія: CPF — Cadastro de Pessoas Físicas — має 11 цифр із двома контрольними значеннями. CNPJ — 14-цифровий бізнес-ідентифікатор.
Індія: Aadhaar — 12-значний біометричний ідентифікатор. Він використовує перевірку Верхоффа. PAN — 10-значний податковий ідентифікатор із літерами та цифрами.
ОАЕ: Emirates ID містить 15 цифр у форматі 784-рік народження-порядковий номер-контрольна цифра.
Глобальна HR-команда, що охоплює 12 країн, потребує одного інструменту. Він повинен обробляти всі 12 національних форматів ідентифікаторів за один прохід. Підтримка окремих бібліотек регулярних виразів для кожної країни є нежиттєздатною.
Архітектура з 285+ типами сутностей
Бібліотека з 285+ типами сутностей охоплює всі формати країн-членів ЄС. Вона також включає основні ідентифікатори Азіатсько-Тихоокеанського регіону: Aadhaar, PAN, CPF, CNPJ, Emirates ID і тайський громадянський ідентифікатор. Американські формати — SSN, EIN, водійські посвідчення штатів — також включені. Один механізм обробляє їх усі. Бібліотека оновлюється зі зміною форматів.
Це і є прогалина, яку залишають більшість інструментів. Перегляньте довідник сутностей, щоб оцінити покриття. Для тарифікації API за обсягом відвідайте сторінку цін.