anonym.legal
Назад до блогуGDPR та відповідність

Розрив у виявленні ідентифікаторів ЄС: Steuer-ID...

Загальні інструменти PII оптимізовані для US SSN та email. Ідентифікатори ЄС — Steuer-ID, NIR, personnummer — пропускаються 60–85% розгортань.

April 19, 20268 хв читання
EU identifier gapSteuer-ID detectionFrench NIR anonymizationSwedish PersonnummerNordic identifier GDPR

Розрив у виявленні ідентифікаторів ЄС

8 основних національних ідентифікаторів ЄС, яких бракує

КраїнаІдентифікаторФорматРівень пропуску загальними інструментами
ГерманіяSteuer-ID11 цифр (Луна)68%
ФранціяNIR15 цифр (S AAMMDD CCC OOO K)78%
ШвеціяPersonnummerYYMMDD-NNNC45%
ПольщаPESEL11 цифр (вага 1,3,7,9)52%
НідерландиBSN9 цифр (11-проба)71%
РумуніяCNP13 цифр78%
УгорщинаTAJ-szám9 цифр (Луна 10)83%
ГреціяΑΦΜ9 цифр (зважена сума)48%

Чому загальні інструменти пропускають ідентифікатори ЄС

Проблема 1: Навчальне упередження Bільшість комерційних PII-інструментів навчені переважно на англомовному тексті та US-ідентифікаторах (SSN 999-99-9999, EIN XX-XXXXXXX). Ідентифікатори ЄС потребують специфічних навчальних даних.

Проблема 2: Відсутність контрольної суми Ідентифікатори ЄС зазвичай мають алгоритми перевірки контрольної суми — без реалізації цих алгоритмів хибнопозитивні результати роблять виявлення непридатним для виробничого використання.

Проблема 3: Специфічні для мови ознаки NIR Франції з'являється поруч із французькими словами «numéro de sécurité sociale». Personnummer Швеції — з «personnummer» або «personnr». Контекстне виявлення вимагає мовних моделей.

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.