anonym.legal
Назад към блогаGDPR и съответствие

Отвъд SSN и имейл адреси: Анонимизиране на...

Всяка организация има вътрешни идентификатори – идентификационни номера на служители, номера на сметки, идентификационни номера на поръчки...

April 19, 20267 мин. четене
custom PII detectionorganizational identifiersre-identification riskGDPR pseudonymizationcustom entity

Отвъд SSN и имейл адреси: Анонимизиране на персонализираните идентификатори на вашата организация

Вашият GDPR инструмент за анонимизиране открива имейл адреси. Открива телефонни номера. Той открива имена и номера на социални осигуровки. Изпълнявате експортирането на вашите билети за поддръжка чрез него, изтегляте анонимизирания резултат и го споделяте с вашия екип за анализи.

Номерата на вашите клиентски сметки (формат ACC-XXXXXXXX-XX) все още са във всеки билет. Вашите идентификатори на поръчки (ORD-XXXXXXX) все още са налице. Вашите вътрешни потребителски идентификатори са все още там.

Тези идентификатори са псевдонимни в изолация — те не идентифицират директно лице без достъп до справочна таблица. Но вашият екип за анализ има достъп до тази справочна таблица. Вашата база данни за поддръжка го има. Вашият CRM го има. Анонимният експорт може да бъде повторно идентифициран за секунди от всеки, който има достъп до някоя от тези системи.

Това е неуспешна псевдонимизация на GDPR — не защото инструментът е пропуснал стандартната PII, а защото не може да знае за идентификатори, специфични за вашата организация.

Какво откриват стандартните PII инструменти

Стандартните инструменти за откриване на PII — включително базовите Microsoft Presidio конфигурации — са изградени около формати на универсален идентификатор:

Какво се покрива:

  • Социалноосигурителни номера (SSN в САЩ, NINO в Обединеното кралство, национални идентификационни формати на ЕС)
  • Имейл адреси (формат RFC 5322)
  • Телефонни номера (E.164 и национални формати)
  • Номера на кредитни карти (валидиране на алгоритъма на Luhn)
  • Имена (откриване на базата на NER модел)
  • Номера на паспорт/шофьорска книжка (специфични за държавата формати)

Какво не се покрива:

  • Формат на вашия идентификационен номер на служител (EMP-XXXXX)
  • Формат на номера на вашата клиентска сметка (ACC-XXXXXXXX-XX)
  • Формат на ID на вашата поръчка (ORD-XXXXXXX)
  • Вашият вътрешен потребителски идентификатор (UUID или персонализиран формат)
  • Вашите вътрешни референтни кодове
  • Идентификатори, специфични за партньора

Стандартните инструменти откриват какво е универсално. Специфичните за организацията идентификатори по дефиниция не са универсални. Те изискват персонализирана конфигурация.

Рискът от повторна идентификация на практика

Фирма за финансови услуги обработва билети за поддръжка на клиенти за анализ на качеството. Техният стандартен работен процес за анонимизиране на PII премахва:

  • Имена на клиенти ✓
  • Имейл адреси ✓
  • Телефонни номера ✓
  • Номера на сметки (формат ACC-XXXXXXXX-XX) ✗ — не е открит

Експортирането на билети отива към екипа за анализи. Анализатор на данни се присъединява към таблицата с билети с клиентската база данни по номера на сметката. Повторната идентификация е незабавна и пълна.

Това не изисква сложни техники за атака. Това е рутинно SQL присъединяване, което всеки анализатор би изпълнил, за да добави демографски контекст на клиента в подкрепа на анализа на билети. „Анонимизираният“ експорт не беше анонимен.

GDPR Член 4(5) дефинира псевдонимизацията като „обработване на лични данни по такъв начин, че личните данни вече не могат да бъдат приписани на конкретен субект на данни без използването на допълнителна информация“. Номерата на сметки се провалят на този тест, когато допълнителната информация (базата данни на клиента) е лесно достъпна.

Изграждане на потребителски модели на обекти

Създаването на персонализирани обекти следва лесен работен процес за екипи за нетехническо съответствие:

Стъпка 1: Идентифицирайте формата на идентификатора Документирайте специфичните за вашата организация идентификатори и техните формати:

  • Клиентски акаунт: ACC-XXXXXXXX-XX (ACC префикс, 8-цифрен номер, 2-знаков суфикс)
  • ID на поръчката: ORD-XXXXXXX (ORD префикс, 7-цифрен номер)
  • ID на служител: EMP-XXXXX (EMP префикс, 5-цифрен номер)
  • Вътрешен потребителски идентификатор: UUID формат (8-4-4-4-12 шестнадесетичен)

Стъпка 2: Генерирайте модела за откриване Опишете формата на ясен език: „Номера на сметки, които започват с ACC, след това тире, след това 8 цифри, след това тире, след това 2 главни букви.“

Генерирането на модел с помощта на AI произвежда: ACC-d{8}-[A-Z]{2}

Стъпка 3: Проверка спрямо примерни данни Качете 20-30 документа, съдържащи идентификатора. Потвърдете:

  • Всички случаи са открити (няма фалшиви отрицания)
  • Няма фалшиви положителни резултати (текстът без идентификатор е неправилно маркиран)

Стъпка 4: Конфигурирайте метода за анонимизиране За идентификатори, използвани като ключове за присъединяване (идентификатори на поръчки, които се появяват в множество системи и трябва да бъдат последователни за анализ):

  • Псевдонимизиране: Заменете ACC-00123456-AB последователно с ACC-99876543-XY във всички документи. Замяната е последователна - един и същ вход винаги произвежда същия изход - така че аналитичните съединения все още работят. Оригиналната стойност не може да бъде възстановена без ключа.

За идентификатори, които не са необходими за анализ:

  • Редактиране: Замяна с [REDACTED]. По-просто, необратимо.

Стъпка 5: Запазване като предварително зададено Персонализираният обект (или множество персонализирани обекти), запазен като предварително зададена екипна настройка, се прилага последователно за цялата обработка — групови качвания, извиквания на API, интерфейс на браузъра. Новите членове на екипа автоматично получават пълната конфигурация.

Казус от практиката: 180 000 билета за поддръжка

Фирма за финансови услуги има номера на клиентски сметки (формат ACC-XXXXXXXX-XX), които се появяват в историческите експортирания на билети за поддръжка. Стандартните инструменти за PII ги пропуснаха напълно.

Идентифициран пропуск: След преглед на съответствието екипът осъзна, че 180 000 исторически заявки за поддръжка в техния склад за анализи съдържат нередактирани номера на акаунти заедно с (вече анонимизирани) имена и имейли.

График за разрешаване на проблема:

  1. Служителят по съответствието определя ACC модел (15 минути)
  2. Тествайте срещу 30 примерни билета (20 минути)
  3. Потвърдете точността на модела (10 минути)
  4. Обработете 180 000 билета в партида за една нощ
  5. Заменете складовите таблици с повторно анонимизирани версии

Общо време за преодоляване на пропуска в съответствието: 45 минути време на служител по съответствието + партида за една нощ. Без създаване на потребителски обект това ще изисква инженерен билет, време за разработка, преглед на кода и внедряване — седмици, не часове.

Отвъд билетите за поддръжка: Къде се появяват персонализирани идентификатори

Персонализираните организационни идентификатори се разпространяват в повече типове документи, отколкото повечето екипи за съответствие осъзнават:

Вътрешни документи:

  • Бележки от срещи, посочващи номера на сметки или идентификатори на поръчки
  • Нишки по имейл с референции на клиенти
  • Презентации с данни от казуси

Споделено с трети страни:

  • Доклади до регулаторите с референтни номера на случаите
  • Данни, споделени с одитори
  • Документи на доставчика с референции на клиента

Изследвания и анализи:

  • Набори от данни за анализ на пътя на клиента
  • Поддържа набори от данни за преглед на качеството
  • Данни за обучение за вътрешни ML модели

Всеки от тях изисква една и съща персонализирана конфигурация на обекта, за да произведе истински анонимен изход.

GDPR Псевдонимизация срещу анонимизация: Техническото разграничение

GDPR прави разлика между:

Псевдонимизация: Данни, които могат да бъдат повторно идентифицирани с достъп до допълнителна информация. Псевдонимизираните данни все още са лични данни съгласно GDPR. Регламентът насърчава псевдонимизацията като мярка за намаляване на риска, но не премахва задълженията по GDPR.

Анонимизиране: Данни, които не могат разумно да бъдат повторно идентифицирани. Анонимните данни не са лични данни и не са предмет на GDPR.

Номерата на сметки, идентификаторите на поръчките и идентификаторите на служителите са псевдонимни — не анонимни — когато съществуват справочни таблици. Замяната им с последователни псевдоними (псевдонимизация) намалява риска, но не елиминира задълженията по GDPR. Замяната им с произволни токени (анонимизиране чрез унищожаване на ключа) елиминира задълженията на GDPR, но прекъсва присъединяванията.

За споделяне с трети страни, които нямат достъп до вашите справочни таблици: псевдонимизацията може да е достатъчна (те не могат да се идентифицират повторно без ключа). За вътрешни анализи: необходима е пълна анонимност или контрол на достъпа до ключа.

Заключение

Стандартната празнина при откриване на PII не е техническо ограничение на алгоритмите за откриване — това е празнина в конфигурацията. Никой инструмент за откриване не може да знае формата на номера на акаунта на вашата организация, освен ако не му кажете.

Създаването на персонализиран обект затваря тази празнина за часове, а не за седмици. Екипите за съответствие – без инженерна поддръжка – могат да дефинират специфични за организацията модели, да ги валидират спрямо примерни данни и да ги прилагат последователно във всички режими на обработка.

180 000 нередактирани номера на акаунти, открити в казуса, не са били там поради повреда на инструмента. Те бяха там, защото на инструмента никога не беше казано да ги търси.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.