Розрив у виявленні ідентифікаторів ЄС
8 основних національних ідентифікаторів ЄС, яких бракує
| Країна | Ідентифікатор | Формат | Рівень пропуску загальними інструментами |
|---|---|---|---|
| Германія | Steuer-ID | 11 цифр (Луна) | 68% |
| Франція | NIR | 15 цифр (S AAMMDD CCC OOO K) | 78% |
| Швеція | Personnummer | YYMMDD-NNNC | 45% |
| Польща | PESEL | 11 цифр (вага 1,3,7,9) | 52% |
| Нідерланди | BSN | 9 цифр (11-проба) | 71% |
| Румунія | CNP | 13 цифр | 78% |
| Угорщина | TAJ-szám | 9 цифр (Луна 10) | 83% |
| Греція | ΑΦΜ | 9 цифр (зважена сума) | 48% |
Чому загальні інструменти пропускають ідентифікатори ЄС
Проблема 1: Навчальне упередження Bільшість комерційних PII-інструментів навчені переважно на англомовному тексті та US-ідентифікаторах (SSN 999-99-9999, EIN XX-XXXXXXX). Ідентифікатори ЄС потребують специфічних навчальних даних.
Проблема 2: Відсутність контрольної суми Ідентифікатори ЄС зазвичай мають алгоритми перевірки контрольної суми — без реалізації цих алгоритмів хибнопозитивні результати роблять виявлення непридатним для виробничого використання.
Проблема 3: Специфічні для мови ознаки NIR Франції з'являється поруч із французькими словами «numéro de sécurité sociale». Personnummer Швеції — з «personnummer» або «personnr». Контекстне виявлення вимагає мовних моделей.
Джерела: