Прихована прогалина у відповідності GDPR
GDPR не має мовних переваг. Стаття 4(1) визначає «персональні дані» без посилання на мову, на якій вони з'являються. Steuer-ID так само захищений, як US SSN. Французький NIR так само регульований, як британський National Insurance number.
Але більшість інструментів виявлення PII розроблені для англійської мови.
Дослідження, опубліковане на ACL 2024, показало, що гібридні NLP-підходи досягають F1-показників 0,60–0,83 для локалей ЄС — але інструменти лише для англійської мови, застосовані до не англомовного тексту, мають показники близько нуля для структурованих національних ідентифікаторів. Практичний висновок: інструмент анонімізації, розгорнутий у багатонаціональній організації, може виявляти 95% англомовних PII, пропускаючи при цьому 40–60% PII на німецькій, французькій, польській або нідерландській мовах у тому ж наборі даних.
Ідентифікатори ЄС, які пропускають загальні інструменти
| Країна | Ідентифікатор | Формат | Типові проблеми |
|---|---|---|---|
| Німеччина | Steuer-ID | 11 цифр + контрольна сума | Валідація Luhn-like |
| Франція | NIR | 15 цифр + ключ | Місяць/рік/département кодування |
| Швеція | Personnummer | YYMMDD-XXXX | Offset Samordningsnummer |
| Польща | PESEL | 11 цифр | Складна контрольна сума |
| Нідерланди | BSN | 9 цифр | 11-proef валідація |
| Чехія | Rodné číslo | YYMMDD/XXXX | 50-offset кодування для жінок |
Проблема валідації
Просте виявлення шаблонів недостатнє. Steuer-ID — 11-значне число — буде пропущено, якщо ваш інструмент не реалізує:
- Специфічний для Steuer-ID алгоритм контрольної суми
- Діапазони кодів цифр першої цифри
- Логіку суфікса дати народження
Повторне виявлення хибнопозитивних результатів без цих перевірок є технічно необоротним для аудиту.
Рішення anonym.legal
Ми підтримуємо специфічне для мови виявлення ідентифікаторів:
285+ типів сутностей охоплюють:
- Усі головні ідентифікатори ЄС (27 країн)
- Глобальні ідентифікатори (US SSN, Brazilian CPF, Indian Aadhaar тощо)
- Специфічні для домену типи (медичні, фінансові, юридичні)
- Кастомні ідентифікатори (ідентифікатори співробітників, внутрішні коди)
48 мов:
- Повна підтримка офіційних мов ЄС
- Основні глобальні мови
- Правильна обробка RTL для арабської та іврит
Приклад: Багатонаціональна обробка DSAR
Великий консультант обробляє DSAR-запити від клієнтів по всьому ЄС. Один запит стосується записів французьких клієнтів, що містять NIR-номери, перемішані в електронних листах французькою мовою.
Lише для англійської: NIR-номери пропускаються (0% виявлення) anonym.legal: NIR-номери виявляються та анонімізуються (специфічна для Франції логіка)
Початок роботи
Джерела: