anonym.legal
Назад до блогуGDPR та відповідність

Чому ваш інструмент виявлення PII відповідає GDPR...

Для виявлення German Steuer-ID, French NIR та Swedish Personnummer потрібна різна логіка.

March 3, 202610 хв читання
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Прихована прогалина у відповідності GDPR

GDPR не має мовних переваг. Стаття 4(1) визначає «персональні дані» без посилання на мову, на якій вони з'являються. Steuer-ID так само захищений, як US SSN. Французький NIR так само регульований, як британський National Insurance number.

Але більшість інструментів виявлення PII розроблені для англійської мови.

Дослідження, опубліковане на ACL 2024, показало, що гібридні NLP-підходи досягають F1-показників 0,60–0,83 для локалей ЄС — але інструменти лише для англійської мови, застосовані до не англомовного тексту, мають показники близько нуля для структурованих національних ідентифікаторів. Практичний висновок: інструмент анонімізації, розгорнутий у багатонаціональній організації, може виявляти 95% англомовних PII, пропускаючи при цьому 40–60% PII на німецькій, французькій, польській або нідерландській мовах у тому ж наборі даних.

Ідентифікатори ЄС, які пропускають загальні інструменти

КраїнаІдентифікаторФорматТипові проблеми
НімеччинаSteuer-ID11 цифр + контрольна сумаВалідація Luhn-like
ФранціяNIR15 цифр + ключМісяць/рік/département кодування
ШвеціяPersonnummerYYMMDD-XXXXOffset Samordningsnummer
ПольщаPESEL11 цифрСкладна контрольна сума
НідерландиBSN9 цифр11-proef валідація
ЧехіяRodné čísloYYMMDD/XXXX50-offset кодування для жінок

Проблема валідації

Просте виявлення шаблонів недостатнє. Steuer-ID — 11-значне число — буде пропущено, якщо ваш інструмент не реалізує:

  1. Специфічний для Steuer-ID алгоритм контрольної суми
  2. Діапазони кодів цифр першої цифри
  3. Логіку суфікса дати народження

Повторне виявлення хибнопозитивних результатів без цих перевірок є технічно необоротним для аудиту.

Рішення anonym.legal

Ми підтримуємо специфічне для мови виявлення ідентифікаторів:

285+ типів сутностей охоплюють:

  • Усі головні ідентифікатори ЄС (27 країн)
  • Глобальні ідентифікатори (US SSN, Brazilian CPF, Indian Aadhaar тощо)
  • Специфічні для домену типи (медичні, фінансові, юридичні)
  • Кастомні ідентифікатори (ідентифікатори співробітників, внутрішні коди)

48 мов:

  • Повна підтримка офіційних мов ЄС
  • Основні глобальні мови
  • Правильна обробка RTL для арабської та іврит

Приклад: Багатонаціональна обробка DSAR

Великий консультант обробляє DSAR-запити від клієнтів по всьому ЄС. Один запит стосується записів французьких клієнтів, що містять NIR-номери, перемішані в електронних листах французькою мовою.

Lише для англійської: NIR-номери пропускаються (0% виявлення) anonym.legal: NIR-номери виявляються та анонімізуються (специфічна для Франції логіка)

Початок роботи


Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.