anonym.legal
Назад към блогаТехнически

Защо откриването на бинарни PII се проваля на вашия...

Открито/неоткрито е недостатъчно за контексти на съответствие, които изискват човешка преценка.

April 21, 20268 мин. четене
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Ограничението на двоичното откриване

Всяка система за откриване на PII е изправена пред основно предизвикателство: един и същ низ може да бъде PII в един контекст, а не в друг. „Джон“ в жалба на клиент е субект на данни. „Джон“ като препратка към Джон Ф. Кенеди в исторически документ не е така. Социалноосигурителният номер в медицинско досие е HIPAA идентификатор. Деветцифрен код на продукта, който съвпада със SSN формат, не е такъв.

Двоично откриване — открит/неоткрит флаг — не може да представлява тази неяснота. Принуждава или свръхредактиране (маркиране на всичко, което би могло да бъде PII), или недостатъчно редактиране (маркиране само на съвпадения с висока сигурност). За контексти на съответствие, изискващи защитими, подлежащи на проверка решения за анонимизиране, нито една от опциите не е приемлива.

Оценяването на доверието осигурява средния път: 0-100% стойност на доверие за открит обект, което позволява многостепенно вземане на решения, работни потоци за човешки преглед и документация за одит.

Случаят на използване на правно откритие

Анонимизирането на правните открития има изрични изисквания, които правят оценяването на доверието незадължително:

Проблемът с прекомерното редактиране: Неправилното редактиране на имена на адвокати, съдебни справки или правни цитати опорочава доказателствената стойност на документите. Съдилищата са санкционирали адвокати за прекомерно редактиране в контекст на електронно откриване – същата съдебна практика, която санкционира недостатъчното редактиране, обхваща и прекомерното редактиране.

Проблемът с недостатъчното редактиране: Липсата на оригинална лична информация създава отговорност: нарушения на поверителността на клиентите, оплаквания от адвокатска колегия и в някои юрисдикции криминално разкриване.

**Изискване за защита: ** Когато съд оспори решение за редактиране, адвокатите трябва да могат да обяснят защо конкретни обекти са били редактирани, а други не. „Софтуерът каза така“ не е защитимо обяснение. „Софтуерът маркира това с 94% увереност като социалноосигурителен номер, а нашият протокол автоматично редактира над 85%“ е защитимо.

Двоичното откриване не може да даде защитими обяснения. Оценяването на доверието с документирани прагове за вземане на решения може.

Тристепенна рамка за доверие

Най-ефективното прилагане на съответствието използва три нива на доверие:

Ниво 1 — Автоматично (>85% увереност):

  • Субекти, съответстващи на модели с висока степен на сигурност (пълен SSN формат, IBAN, структуриран MRN)
  • Автоматично анонимизирано без човешка проверка
  • Запис в дневника за одит: тип обект, увереност, метод, клеймо за време
  • Пример: "571-44-9283" открит като SSN при 97% сигурност → автоматично редактиран

Ниво 2 — Изисква се преглед (50-85% увереност):

  • Субекти, които може да са PII, но изискват контекстуална преценка
  • Маркирано за действие на рецензент от човек (приемане на редакция / отхвърляне / прекласифициране)
  • Запис в дневника за одит: тип обект, увереност, идентификационен номер на рецензент, решение, клеймо за време
  • Пример: „Джон Дейвис“ в технически документ → име с 67% увереност → рецензентът потвърждава, че това е името на човек в контекст → редактирано

Ниво 3 — Само информация (<50% увереност):

  • Откриванията с ниска степен на доверие се появиха като предложения
  • Не се редактира автоматично; рецензентът може да избере да действа
  • Запис в регистрационния файл за одит: тип обект, увереност, появило се като предложение, решение на проверяващия – Пример: „Смит“ в контекст на правилно съществително → 42% увереност → изплува → рецензентът определя, че това е име на компания → не е редактирано

Тази рамка намалява тежестта на прегледа (само ниво 2 изисква човешко действие), като същевременно поддържа пълно покритие на одита.

Как работи технически оценката за увереност

Системите за откриване на PII комбинират множество сигнали, за да произведат резултати за доверие:

Образци на Regex: Низ, съответстващ на точния SSN формат (###-##-####), получава висока базова степен на доверие. Частично съвпадение получава по-ниска увереност.

**Изходен модел на NER: ** Моделите за разпознаване на именувани обекти извеждат логически вероятности за всяка класификация на обекти. Базиран на BERT NER модел, присвояващ 0,93 вероятност на PERSON класификация за низ, произвежда откриване с висока степен на сигурност.

Контекстни сигнали: Заобикалящият текст променя увереността. „Моят SSN е 571-44-9283“ увеличава доверието в SSN. „Продуктов код 571-44-9283“ го намалява. Моделите, съобразени с контекста, коригират увереността въз основа на тези сигнали.

Съвкупно оценяване: Системите с производствен клас комбинират множество сигнали — увереност на съвпадението на регулярен израз + увереност на NER модела + контекстен сигнал — използвайки претеглено оценяване. Крайната стойност на достоверността отразява всички налични доказателства.

Резултатът е доверителна стойност за обект, която може да се използва за вземане на решения, базирани на прагове, в работни потоци за съответствие.

Приложение в застрахователната индустрия: Преглед на документи за защитими искове

Имуществените застрахователни компании обработват документи за искове, които смесват ясно PII данни (имена на застраховани лица, адреси, SSN) с контекстуално двусмислени данни (имена на свидетели в доклади за злополуки, имена на фирми изпълнители, подписи на регулатор).

Подход за двоично откриване или:

  • Редактира всички имена на лица (развалящ контекста на името на фирмата изпълнител)
  • Редактира само очевидни модели (липсващи имена на свидетели)

Подход с оценка на доверието:

  • SSN (съвпадение на формат, контекст "SSN на полица"): 96% → автоматично редактиране
  • Име на притежателя на полица (NER PERSON, контекст "притежател на полица"): 91% → автоматично редактиране
  • Фирма изпълнител (NER ORG, не PERSON): 78% → преглед — рецензентът отхвърля редакцията
  • Име на свидетел (NER PERSON, контекст "изявление на свидетел"): 82% → преглед - рецензентът приема редакцията
  • Име на регулатора (NER PERSON, контекст "подпис"): 71% → преглед — рецензентът приема редактиране (коректорът е данни от трета страна)

Резултат: Одитна пътека, документираща всяко решение с увереност, намаляваща правния риск за оспорвани искове.

Документация за изграждане на съответствие от точкуването на доверието

За изискванията за одит на GDPR член 5(1)(f) и HIPAA правила за сигурност, анонимизирането с оценка на доверието автоматично генерира документация за съответствие:

Одитни записи на ниво юридическо лице:

  • Тип на обекта, стойност на достоверността, решение (автоматично/ръчно), ID на проверяващия, клеймо за време
  • Може да се експортира като CSV за разследвания на DPA
  • Възможност за търсене по период от време, тип обект, група на доверие, рецензент

Документация за конфигуриране на прага:

  • Текущи настройки на прага, документирани в системната конфигурация
  • История на промените (кой е променил праговете, кога, обосновка)
  • Демонстрира умишлена, управлявана политика за анонимизиране

Статистически отчети:

  • Проценти на откриване по тип обект през периода на обработка
  • Проценти на завършване на прегледа (прегледани субекти от ниво 2 спрямо поставени на опашка)
  • Коефициенти за отмяна (рецензент, отхвърлящ автоматично редактиране срещу приемане)

За запитване на DPA с искане „покажете вашите контроли за анонимизиране“, тази документация предоставя веригата от доказателства от „какво е обработено“ през „какви решения са взети“ до „какъв е резултатът“ — всички със стойности на увереност, подкрепящи защитимостта на всяко решение.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.