anonym.legal
Docs/Glossary

Глоссарий по конфиденциальности и технологиям

Определения всех терминов, аббревиатур и понятий, используемых в анонимизации PII и защите данных.

Назад к документации

94 терминов

2

2FA

Двухфакторная аутентификация

Шифрование и безопасность

Аутентификация, требующая два различных фактора проверки: то, что пользователь знает (пароль), и то, что пользователь имеет (TOTP-приложение, аппаратный ключ) или чем является (биометрия). Поддерживается в anonym.legal как дополнительный уровень поверх ZK Auth.

#twofa

А

Адвокатская тайна

Защита адвокатской тайны

Право и аудит

Юридическая защита конфиденциальных коммуникаций между адвокатами и клиентами. При обзоре документов и e-discovery привилегированный контент должен быть выявлен и скрыт или удалён. В anonym.legal можно настроить пользовательские типы сущностей для маркировки признаков привилегированного контента.

#attorneyclientprivilege

Аудиторский след

Неподверженный изменению аудиторский след

Право и аудит

Последовательный, защищённый от изменений журнал, фиксирующий, кто, когда и как получил доступ, изменил или обработал данные. Требуется по стандарту ISO 27001 (A.8.15), HIPAA Security Rule (§164.312(b)) и правилам e-discovery. anonym.legal ведёт журнал всех операций анонимизации с отметками времени, количеством сущностей и идентификаторами операторов.

#audittrail

В

Веб-приложение

Веб-приложение anonym.legal

Платформа и продукты

Веб-интерфейс на сайте anonym.legal для анализа, анонимизации и дешифрования PII. Поддерживает ввод текста, загрузку файлов (PDF, DOCX, TXT), пакетную обработку, ZK Auth, 48 языков и более 285 типов сущностей. Не требует установки.

#webapp

Г

Государственный идентификатор

Типы сущностей государственных идентификаторов

Типы сущностей

Типы сущностей для национальных и государственных идентификаторов: US_SSN, US_PASSPORT, UK_NHS, ES_NIF, DE_PERSONALAUSWEIS, FR_INSEE, IT_FISCAL_CODE и более 50 других форматов идентификаторов разных стран. Обнаруживаются с использованием специфичных для страны регулярных выражений и шаблонов контрольных сумм.

#governmentid

Д

Десктопное приложение

Десктопное приложение anonym.legal

Платформа и продукты

Кроссплатформенное приложение (Windows, macOS, Linux), созданное с использованием Tauri 2.0 и React 18. Предоставляет локальную обработку файлов, хранилище BIP39 для офлайн ZK Auth, пакетный экспорт и синхронизацию с API. Поддерживает изолированные установки без доступа к интернету.

#desktopapp

З

Защита от DDoS

Защита от распределённых атак отказа в обслуживании

Инфраструктура

Меры защиты инфраструктуры от распределённых атак типа отказа в обслуживании. Серверная инфраструктура anonym.legal включает правила firewall (UFW), лимиты соединений nginx и эквивалентные Cloudflare меры на внешних рубежах для поддержания доступности.

#ddosprotection

Защищаемость

Юридически защищаемая анонимизация

Право и аудит

Возможность продемонстрировать регуляторам, судам или аудиторам, что анонимизация выполнена с использованием документированной, последовательной и технически обоснованной методологии. Аудит-логи, оценки уверенности и настройки операторов в anonym.legal поддерживают защищаемые рабочие процессы анонимизации.

#defensibility

И

Идентификаторы страхования

Типы страховых сущностей

Типы сущностей

Типы сущностей для страховых идентификаторов: US_NPI (национальный идентификатор медицинского работника), HEALTHCARE_PLAN_BENEFICIARY, а также номера медицинского страхования, специфичные для страны (например, DE_HEALTH_INSURANCE_NUMBER).

#insuranceidentifiers

Идентификаторы транспортных средств

Типы сущностей транспортных средств

Типы сущностей

Типы сущностей для идентификаторов, связанных с транспортными средствами: US_DRIVER_LICENSE, UK_DRIVER_LICENSE, EU_DRIVER_LICENSE, VIN (идентификационный номер транспортного средства), а также форматы государственных регистрационных номеров разных стран.

#vehicleidentifiers

М

Медицинские сущности

Типы медицинских сущностей PII

Типы сущностей

Типы сущностей для 18 идентификаторов HIPAA Safe Harbor и дополнительной медицинской PII: US_MRN (номера медицинских карт), MEDICAL_LICENSE, HEALTHCARE_PLAN_BENEFICIARY, а также сущности, связанные с диагнозом и лечением.

#healthcareentities

Н

Надстройка для Office

Надстройка anonym.legal для Microsoft Office

Платформа и продукты

Расширение Microsoft Office, интегрирующее анонимизацию PII непосредственно в Word, Excel и PowerPoint. Поддерживает редактирование прямо в документе, управление пресетами, ZK Auth и синхронизацию между устройствами. Доступно через Microsoft AppSource.

#officeaddin

Недостаточное удаление

Недостаточное удаление (ложноотрицательные срабатывания)

Право и аудит

Неудаление всей PII, что оставляет людей незащищёнными в общих документах. Более распространённый риск несоблюдения требований. Причины: высокие пороги уверенности, отсутствие нужных типов сущностей или новые форматы PII. Снижается за счёт гибридного обнаружения и поддержки пользовательских сущностей в anonym.legal.

#underredaction

О

Ограничение частоты запросов

Ограничение частоты запросов к API

Инфраструктура

Контроль количества запросов к API, которые клиент может сделать за определённый промежуток времени. Предотвращает злоупотребления и обеспечивает справедливое распределение ресурсов. anonym.legal применяет лимиты на пользователя в зависимости от тарифного плана, рекомендуется использовать экспоненциальную задержку при повторных попытках.

#ratelimiting

Операторы

Операторы анонимизации

Платформа и продукты

Стратегия замены, применяемая к обнаруженным PII. anonym.legal поддерживает REPLACE (текст-заполнитель), REDACT (пустая строка), MASK (звёздочки), HASH (SHA-256 дайджест), ENCRYPT (обратимое AES-256-GCM), а также CUSTOM (замена, определяемая пользователем).

#operators

П

Пакетная обработка

Пакетная анонимизация файлов

Платформа и продукты

Одновременная обработка нескольких файлов за одну операцию. Пакетный режим anonym.legal поддерживает файлы PDF, DOCX и TXT с индивидуальной настройкой сущностей, порогов уверенности и выбором формата вывода для каждого файла.

#batchprocessing

Пользовательские сущности

Пользовательские распознаватели сущностей

Платформа и продукты

Пользовательские шаблоны PII, добавляемые к встроенным 285+ типам сущностей anonym.legal. Поддерживаются регулярные выражения, списки слов и deny-листы. Полезно для идентификаторов, специфичных для организации, таких как номера сотрудников, внутренние коды проектов или наименования собственных продуктов.

#customentities

Порча доказательств

Порча доказательств

Право и аудит

Уничтожение, изменение или несохранение доказательств, имеющих отношение к судебному разбирательству. Чрезмерное удаление информации, делающей документы нечитаемыми, может считаться порчей доказательств. Важно точно настраивать параметры анонимизации (пороги уверенности, выбор сущностей) для юридически корректного удаления данных.

#spoliation

Правило 26

Федеральные правила гражданского судопроизводства, Правило 26

Право и аудит

Правило гражданского судопроизводства США, регулирующее обязательства по раскрытию информации. Rule 26(g) требует, чтобы адвокаты подтверждали, что запросы и раскрытие информации не используются в недобросовестных целях — включая неполное удаление PII из предоставляемых документов.

#rule26

Пресеты

Пресеты анонимизации

Платформа и продукты

Сохранённые конфигурации выбранных типов сущностей, порогов уверенности и параметров вывода, которые можно применить одним кликом. Пресеты синхронизируются между веб-приложением, надстройкой для Office и десктопным приложением через зашифрованное облачное хранилище.

#presets

Р

Расширение для Chrome

Расширение anonym.legal для Chrome

Платформа и продукты

Браузерное расширение (Manifest V3), перехватывающее текст до его отправки в AI-чат-боты (ChatGPT, Claude, Gemini, Perplexity, DeepSeek). Анонимизирует данные на лету и при необходимости расшифровывает ответы ИИ с использованием сохранённых ключей шифрования.

#chromeextension

Редактор изображений

Сервис Presidio Image Redactor

Инфраструктура

Специализированный backend-сервис (порт 8013), который обнаруживает и удаляет PII из файлов изображений (PNG, JPEG) с помощью OCR и анализа Presidio. Применяет чёрные полосы для сокрытия обнаруженных областей PII на исходном изображении.

#presidioimageredactor

Резиденция данных в ЕС

Резиденция данных в Европейском союзе

Инфраструктура

Гарантия того, что данные хранятся и обрабатываются исключительно на территории ЕС/ЕЭЗ. Продуктивные серверы anonym.legal размещены в Германии (Hetzner Франкфурт), что обеспечивает обработку данных только в рамках юрисдикции GDPR без рисков трансграничной передачи.

#eudataresidency

Т

Тип сущности

Тип сущности PII

Типы сущностей

Категория персональной информации, которую движок обнаружения распознаёт и может анонимизировать. Примеры: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, CREDIT_CARD, IBAN_CODE, US_SSN, IP_ADDRESS. anonym.legal поддерживает более 285 типов сущностей на 48 языках.

#entitytype

Токен-система

Система токенов anonym.legal

Платформа и продукты

Оплата по факту использования: вызовы API расходуют токены, количество которых рассчитывается на основе длины текста, числа сущностей и режима обработки (анализ или анонимизация). Стоимость токенов настраивается в базе данных и отображается в реальном времени перед обработкой.

#tokensystem

У

Универсальные сущности

Языково-универсальные типы сущностей

Типы сущностей

Типы сущностей, обнаруживаемые независимо от языка текста, обычно с помощью регулярных выражений по формату с проверкой контрольной суммы. Примеры: CREDIT_CARD, IBAN_CODE, EMAIL_ADDRESS, PHONE_NUMBER, IP_ADDRESS, URL, адрес CRYPTO.

#universalentities

Ф

Финансовые сущности

Финансовые типы сущностей PII

Типы сущностей

Типы сущностей, охватывающие финансовые идентификаторы: CREDIT_CARD (контрольная сумма Луна), IBAN_CODE (контрольная сумма ISO 13616), SWIFT_CODE (формат BIC), US_BANK_NUMBER, NRP (испанский налоговый идентификатор). Обнаруживаются с проверкой контрольной суммы для минимизации ложных срабатываний.

#financialentities

Х

Хранилище

Хранилище ключей шифрования

Платформа и продукты

Безопасное локальное хранилище для ключей шифрования в десктопном приложении, защищённое производным ключом от основной парольной фразы с помощью Argon2id. Ключи хранятся в зашифрованном виде с использованием AES-256-GCM и резервируются через мнемонические фразы BIP39.

#vault

Ц

Цифровые идентификаторы

Типы сущностей цифровой идентичности

Типы сущностей

Типы сущностей для онлайн- и цифровых идентификаторов: EMAIL_ADDRESS, PHONE_NUMBER, IP_ADDRESS (IPv4 и IPv6), URL, DOMAIN_NAME, CRYPTO (адреса Bitcoin/Ethereum) и платформенные идентификаторы.

#digitalidentifiers

Ч

Чрезмерное удаление

Чрезмерное удаление (ложноположительные срабатывания)

Право и аудит

Удаление большего объёма информации, чем необходимо, что снижает ценность документа и может привести к порче доказательств в судебных процессах. Причины: низкие пороги уверенности или слишком широкий выбор сущностей. Настраивается через параметры порога и выбора сущностей в anonym.legal.

#overredaction

A

AES-256-GCM

Advanced Encryption Standard 256-bit Galois/Counter Mode

Шифрование и безопасность

Аутентифицированный алгоритм шифрования, сочетающий AES-256 (256-битный ключ) с режимом Galois/Counter для обеспечения конфиденциальности и целостности. Используется в обратимой анонимизации anonym.legal для шифрования заменённых сущностей. Обеспечивает как секретность, так и обнаружение подделки.

#aes256gcm

Anonymization

Анонимизация данных

Конфиденциальность данных и PII

Необратимый процесс удаления или преобразования идентифицирующей информации таким образом, чтобы невозможно было идентифицировать человека ни напрямую, ни косвенно. Согласно GDPR, действительно анонимизированные данные не подпадают под действие регламента.

#anonymization

Argon2id

Функция вывода ключа Argon2id

Шифрование и безопасность

Победитель конкурса Password Hashing Competition 2015 года. Argon2id сочетает устойчивость к сторонним каналам Argon2i и устойчивость к атакам на GPU Argon2d. Используется в anonym.legal и хранилище Desktop App для вывода ключей шифрования из пользовательских парольных фраз.

#argon2id

B

BIP39

Bitcoin Improvement Proposal 39 — Мнемонические фразы

Шифрование и безопасность

Стандарт для генерации человекочитаемых мнемонических seed-фраз (12–24 слова) из криптографического seed. Используется в хранилище Desktop App anonym.legal как удобная резервная копия для ключа шифрования, полученного через Argon2id.

#bip39

C

CCPA

Закон Калифорнии о конфиденциальности потребителей

Соответствие и регулирование

Закон штата Калифорния о конфиденциальности, предоставляющий жителям право знать, удалять и отказываться от продажи их персональной информации. Применяется к компаниям, соответствующим пороговым значениям по доходу, объему данных или продаже данных. Существенно изменён законом CPRA (принят в ноябре 2020, вступил в силу в январе 2023).

#ccpa

CLOUD Act

Закон о разъяснении законного использования данных за рубежом

Соответствие и регулирование

Федеральный закон США (2018), позволяющий американским правоохранительным органам требовать от облачных провайдеров США предоставления данных, хранящихся за пределами страны. Конфликтует с правилами передачи данных GDPR для резидентов ЕС. Анонимизация данных перед загрузкой в облако — распространённая мера снижения риска.

#cloudact

Code-Switching

Многоязычный code-switching

Технологии обнаружения

Явление смешения двух и более языков в одном тексте или разговоре. Часто встречается в многоязычных документах (например, немецкие юридические документы с английскими техническими терминами). Гибридное обнаружение anonym.legal обрабатывает такие тексты, одновременно применяя несколько языковых моделей.

#codeswitching

Confidence Scoring

Оценка уверенности в обнаружении сущности

Технологии обнаружения

Оценка от 0 до 1, показывающая, насколько модель уверена, что данный фрагмент текста является сущностью PII. anonym.legal предоставляет настраиваемые пороги уверенности, позволяя пользователям балансировать между точностью и полнотой для своих задач.

#confidencescoring

CSP

Content Security Policy

Шифрование и безопасность

Механизм HTTP-заголовка ответа и мета-тега, ограничивающий, какие ресурсы (скрипты, стили, изображения) может загружать браузер. CSP anonym.legal включает object-src 'none', script-src с nonces и upgrade-insecure-requests для предотвращения XSS-атак.

#csp

D

Data Minimization

Принцип минимизации данных по GDPR

Конфиденциальность данных и PII

Принцип GDPR Article 5(1)(c), требующий собирать и обрабатывать только те данные, которые являются адекватными, релевантными и необходимыми для заявленной цели. Ключевое требование при проектировании систем, соответствующих требованиям конфиденциальности.

#dataminimization

Data Residency

Требования к локализации данных

Соответствие и регулирование

Юридические или договорные требования, определяющие, в какой географической локации должны храниться и обрабатываться данные. Актуально для GDPR (передача данных за пределы ЕЭЗ), немецкого BDSG и отраслевых нормативов в здравоохранении и финансах.

#dataresidency

Data Sovereignty

Цифровой суверенитет данных

Соответствие и регулирование

Принцип, согласно которому данные подчиняются законам и структурам управления той страны, где они собираются. Более широкое понятие, чем локализация данных, включает контроль над тем, кто и на каком правовом основании может получить доступ к данным.

#datasovereignty

De-anonymization

Атака повторной идентификации

Конфиденциальность данных и PII

Процесс повторной идентификации лиц в якобы анонимизированных наборах данных путем сопоставления с дополнительной информацией. Ключевой риск при обмене данными с недостаточной степенью анонимизации.

#deanonymization

Differential Privacy

Дифференциальная приватность (DP)

Конфиденциальность данных и PII

Математическая концепция публикации статистической информации о наборах данных с доказуемыми гарантиями того, что данные отдельного человека не могут быть выделены. Используется в агрегированной аналитике для предотвращения повторной идентификации даже при работе с агрегированными результатами.

#differentialprivacy

DLP

Data Loss Prevention

Платформа и продукты

Дисциплина информационной безопасности и категория программных решений, предназначенных для обнаружения и предотвращения несанкционированной передачи конфиденциальных данных за пределы организации. anonym.legal функционирует как DLP-решение на уровне браузера и AI для PII.

#dlp

DPA

Соглашение о обработке данных

Соответствие и регулирование

Юридически обязательный договор между контролёром и обработчиком данных, требуемый GDPR Article 28. Определяет предмет, срок, характер, цель и тип обработки персональных данных, а также права и обязанности обеих сторон.

#dpa

DPIA

Оценка воздействия на защиту данных

Соответствие и регулирование

Процесс оценки рисков, требуемый GDPR Article 35 для операций обработки, которые могут привести к высоким рискам для прав и свобод субъектов данных. Обязателен для систематического профилирования, крупномасштабной обработки PHI и видеонаблюдения в общественных местах.

#dpia

E

e-Discovery

Электронное раскрытие информации

Право и аудит

Процесс выявления, сбора и предоставления электронно хранимой информации в рамках судебных разбирательств. Требует удаления или сокрытия PII и конфиденциальной информации из предоставляемых документов. Один из основных сценариев для юридических отделов, использующих anonym.legal.

#ediscovery

E2EE

Сквозное шифрование (End-to-End Encryption)

Шифрование и безопасность

Шифрование, при котором только стороны общения могут читать сообщения; поставщик услуги не имеет доступа к открытым данным. В режиме ZK Auth anonym.legal ключи шифрования никогда не покидают устройство клиента, обеспечивая E2EE для хранения анонимизированных данных.

#e2ee

F

FOIA

Закон о свободе информации

Соответствие и регулирование

Федеральный закон США (и аналогичные законы в других юрисдикциях), предоставляющий общественности доступ к государственным документам. Требует удаления PII и другой исключённой информации перед раскрытием — основной сценарий для юридических и государственных процессов анонимизации.

#foia

G

GDPR

Общий регламент по защите данных

Соответствие и регулирование

Регламент ЕС 2016/679, основной нормативный акт по защите данных в Европейском союзе. Применяется к любой организации, обрабатывающей персональные данные резидентов ЕС. Штрафы до 20 млн евро или 4% мирового годового оборота. Ключевые права: доступ, удаление, переносимость, ограничение, возражение.

#gdpr

GDPR Article 25

GDPR Article 25 — Защита данных по проекту и по умолчанию

Соответствие и регулирование

Обязывает контролёров внедрять соответствующие технические и организационные меры (например, псевдонимизация и минимизация данных) как на этапе проектирования системы, так и по умолчанию при обработке.

#gdprarticle25

GDPR Article 32

GDPR Article 32 — Безопасность обработки

Соответствие и регулирование

Обязывает контролёров и обработчиков внедрять соответствующие технические и организационные меры для обеспечения уровня безопасности, соответствующего рискам, включая шифрование, псевдонимизацию, конфиденциальность, целостность, доступность и устойчивость систем обработки.

#gdprarticle32

GenAI DLP

Generative AI Data Loss Prevention

Платформа и продукты

Специализированная категория DLP, направленная на предотвращение включения PII и конфиденциальных данных в запросы, отправляемые генеративным AI-моделям (ChatGPT, Claude, Gemini). Расширение для Chrome и MCP Server от anonym.legal решают эту задачу на этапе ввода данных.

#genaidlp

H

Hashing

Криптографическое хеширование

Конфиденциальность данных и PII

Одностороннее преобразование данных в дайджест фиксированной длины с использованием алгоритмов, таких как SHA-256. Применяется для согласованной псевдонимизации, дедупликации и проверки целостности. Хеш-значения необратимы, но могут быть уязвимы к атакам с использованием радужных таблиц при отсутствии соли.

#hashing

Hetzner

Hetzner Online GmbH

Инфраструктура

Немецкий облачный и хостинг-провайдер, на инфраструктуре которого работает продуктивная среда anonym.legal. Расположен во Фалькенштайне, Саксония (дата-центр fsn1), имеет сертификат ISO 27001. Выбран для обеспечения хранения данных в ЕС, высокого уровня соответствия и юрисдикции, благоприятной для GDPR по немецкому законодательству.

#hetzner

HIPAA

Закон о переносимости и подотчетности медицинского страхования

Соответствие и регулирование

Федеральный закон США, устанавливающий стандарты защиты конфиденциальной медицинской информации пациентов. Правило конфиденциальности регулирует использование PHI; Правило безопасности требует административных, физических и технических мер защиты для электронной PHI (ePHI). Нарушения влекут штрафы до 1,9 млн долларов за каждую категорию в год.

#hipaa

HIPAA Safe Harbor

Метод деидентификации HIPAA Safe Harbor

Соответствие и регулирование

Один из двух одобренных HIPAA методов деидентификации, требующий удаления всех 18 указанных идентификаторов пациента (имя, адрес, даты, номера телефонов, SSN, email, IP-адрес, биометрия и др.), чтобы сделать медицинские данные неидентифицируемыми.

#hipaasafeharbor

HSTS

HTTP Strict Transport Security

Шифрование и безопасность

Механизм политики безопасности веба, который заставляет браузеры использовать только HTTPS-соединения. anonym.legal устанавливает Strict-Transport-Security: max-age=31536000; includeSubDomains для предотвращения атак на понижение протокола и захвата cookie.

#hsts

Hybrid Detection

Гибридное обнаружение NLP + Regex + ML

Технологии обнаружения

Трёхуровневый подход anonym.legal: регулярные выражения для структурированных PII (номера телефонов, IBAN, кредитные карты), модели NLP/NER для контекстных сущностей (имена, организации, локации) и ML-классификаторы для неоднозначных случаев. Снижает количество ложноположительных и ложноотрицательных срабатываний.

#hybriddetection

I

ISO 27001

ISO/IEC 27001 Система управления информационной безопасностью

Соответствие и регулирование

Международный стандарт для систем управления информационной безопасностью (ISMS). Сертификация требует документированных политик, оценки рисков и внедрения контролей. EU-серверы anonym.legal сертифицированы по ISO 27001, что гарантирует структурированное управление безопасностью.

#iso27001

ISO 27001 SoA

Заявление о применимости

Соответствие и регулирование

Обязательный документ ISO 27001, содержащий перечень всех контролей Приложения A, с указанием их применимости для организации и обоснованием включения или исключения. Требуется для сертификации и аудитов.

#iso27001soa

J

JWT

JSON Web Token

Шифрование и безопасность

Компактный, безопасный для URL формат токена, используемый для передачи утверждений между сторонами. anonym.legal использует JWT, подписанные с помощью HS256, для внутренней аутентификации между сервисами (например, frontend → Presidio API). Токены имеют короткий срок жизни и проверяются на стороне сервера.

#jwt

K

KEK

Key Encryption Key

Шифрование и безопасность

Ключ, используемый для шифрования других ключей, а не непосредственно данных. В Zero-Knowledge архитектуре anonym.legal ключ, полученный из пользовательской парольной фразы, выступает в роли KEK для защиты ключей шифрования документов, хранящихся в зашифрованном хранилище.

#kek

L

Language Detection

Автоматическое определение языка

Технологии обнаружения

Автоматическая идентификация языка входного текста перед анализом PII. anonym.legal определяет язык на уровне запроса и направляет его в соответствующий пайплайн NER, используя английский язык по умолчанию для неподдерживаемых языков.

#languagedetection

M

Masking

Маскирование данных

Конфиденциальность данных и PII

Замена конфиденциальных значений реалистичными, но вымышленными данными с сохранением формата и структуры. Используется для тестовых сред, аналитики и обмена наборами данных без раскрытия реальных PII.

#masking

MCP

Model Context Protocol

Платформа и продукты

Открытый протокол от Anthropic, позволяющий AI-моделям взаимодействовать с внешними инструментами и источниками данных в стандартизированном формате. anonym.legal реализует MCP Server, чтобы инструменты для программирования могли вызывать анонимизацию, не покидая рабочий процесс.

#mcp

MCP Server

Сервер Model Context Protocol

Платформа и продукты

Интеграция MCP Server от anonym.legal позволяет AI-помощникам для программирования (Claude Desktop, Cursor, VS Code Copilot) напрямую вызывать API анонимизации как инструмент. PII удаляется из кода, подсказок и контекста до передачи в AI-модель.

#mcpserver

ML Models

Модели машинного обучения для обнаружения PII

Технологии обнаружения

Статистические модели, обученные на размеченных текстовых корпусах для распознавания PII в контексте. anonym.legal использует как пайплайны spaCy на основе трансформеров, так и дообученные XLM-RoBERTa для многоязычного распознавания сущностей в промышленном масштабе.

#mlmodels

N

NER

Распознавание именованных сущностей

Технологии обнаружения

Задача обработки естественного языка, заключающаяся в идентификации и классификации именованных сущностей в тексте по заранее определённым категориям, таким как лица, организации, локации, даты и медицинские идентификаторы. Основная ML-технология, лежащая в основе обнаружения PII в anonym.legal.

#ner

NIS2

Директива по сетевой и информационной безопасности 2

Соответствие и регулирование

Директива ЕС 2022/2555, расширяющая исходную директиву NIS на большее количество секторов (здравоохранение, энергетика, транспорт, цифровая инфраструктура) и ужесточающая требования к кибербезопасности. Крайний срок имплементации — 17 октября 2024 года; большинство стран ЕС его пропустили, и Европейская комиссия начала процедуры о нарушении против несоблюдающих государств.

#nis2

NLP

Обработка естественного языка

Технологии обнаружения

Раздел искусственного интеллекта, изучающий взаимодействие между компьютерами и человеческим языком. В задачах обнаружения PII модели NLP понимают контекст, грамматику и семантику, чтобы выявлять сущности, которые невозможно обнаружить только с помощью регулярных выражений.

#nlp

P

PCI DSS

Стандарт безопасности данных индустрии платежных карт

Соответствие и регулирование

Стандарт безопасности для организаций, обрабатывающих данные платежных карт, поддерживаемый PCI Security Standards Council. Требует шифрования, контроля доступа, ведения журналов и регулярного тестирования. Несоблюдение может привести к штрафам и потере права на обработку карт.

#pcidss

PHI

Охраняемая медицинская информация

Конфиденциальность данных и PII

Любая информация, связанная со здоровьем и относящаяся к идентифицируемому лицу, регулируемая HIPAA в США. Включает диагнозы, записи о лечении, страховые данные и любые из 18 идентификаторов HIPAA Safe Harbor.

#phi

PII

Персональные идентифицируемые данные

Конфиденциальность данных и PII

Любые данные, которые могут идентифицировать конкретного человека напрямую или в сочетании с другой информацией. Примеры: имена, email-адреса, номера социального страхования, IP-адреса, биометрические данные.

#pii

Presidio

Microsoft Presidio

Технологии обнаружения

Open-source SDK для защиты и анонимизации данных от Microsoft. Движок обнаружения anonym.legal построен на сервисах анализа и анонимизации Presidio, расширенных более чем 285 пользовательскими распознавателями сущностей для 48 языков.

#presidio

Presidio Analyzer

Сервис Microsoft Presidio Analyzer

Инфраструктура

Компонент обнаружения в backend anonym.legal (порт 8011). Принимает текст и возвращает список обнаруженных сущностей PII с их позициями, типами и оценками уверенности. Расширен более чем 285 пользовательскими распознавателями на 48 языках.

#presidioanalyzer

Presidio Anonymizer

Сервис Microsoft Presidio Anonymizer

Инфраструктура

Компонент преобразования в backend anonym.legal (порт 8012). Принимает текст и результаты анализа, применяет выбранный оператор (REPLACE, REDACT, MASK, HASH, ENCRYPT) к каждой обнаруженной сущности и возвращает анонимизированный текст.

#presidioanonymizer

Privacy by Design

Конфиденциальность по проекту и по умолчанию

Конфиденциальность данных и PII

Принцип, закрепленный в GDPR Article 25, согласно которому меры по защите данных должны быть встроены в системы с самого начала, а не добавляться впоследствии. Включает минимизацию данных, контроль доступа, шифрование и псевдонимизацию на уровне архитектуры.

#privacybydesign

Pseudonymization

Псевдонимизация данных

Конфиденциальность данных и PII

Замена прямых идентификаторов искусственными значениями (псевдонимами) с сохранением возможности повторной идентификации с помощью отдельного ключа. GDPR Article 4(5) признает это технологией повышения конфиденциальности, но не освобождает псевдонимизированные данные от регулирования.

#pseudonymization

R

Redaction

Редактирование данных

Конфиденциальность данных и PII

Безвозвратное удаление или сокрытие конфиденциальной информации в документах с заменой на визуальный маркер, такой как [REDACTED] или черная полоса. В отличие от шифрования, редактирование необратимо, и исходные данные восстановить невозможно.

#redaction

Regex

Сопоставление с образцом регулярных выражений

Технологии обнаружения

Поиск и сопоставление текста на основе формального синтаксиса языка шаблонов. В обнаружении PII регулярные выражения используются для структурированных идентификаторов (номера телефонов, кредитные карты, IBAN, email-адреса) с проверкой контрольных сумм. Дополняет NER для гибридного обнаружения.

#regex

REST API

RESTful API

Инфраструктура

anonym.legal предоставляет RESTful HTTP API для программной интеграции. Эндпоинты включают /api/analyze, /api/anonymize, /api/image и /api/structured. Аутентификация через JWT bearer tokens. Полная документация OpenAPI доступна в API Reference.

#restapi

S

SCCs

Стандартные договорные положения

Соответствие и регулирование

Заранее одобренные GDPR-контрактные положения для передачи персональных данных из ЕС/ЕЭЗ в третьи страны. Обновлены Европейской комиссией в 2021 году (2021/914/EU) с учётом требований Schrems II, включая проведение оценки воздействия передачи.

#sccs

Schrems II

Решение Schrems II (C-311/18)

Соответствие и регулирование

Решение Суда Европейского союза 2020 года, аннулирующее механизм EU-US Privacy Shield для трансграничной передачи данных из-за недостаточной защиты от наблюдения в США. Требует дополнительных мер (шифрование, анонимизация) при использовании стандартных договорных положений.

#schremsii

SHA-256

Secure Hash Algorithm 256-bit

Шифрование и безопасность

Криптографическая хеш-функция, формирующая 256-битное значение. Используется в anonym.legal для HMAC-аутентификации API-запросов, доказательств ZK auth и для консистентной псевдонимизации сущностей (хеширование с солью обеспечивает одинаковую замену для одинакового исходного значения).

#sha256

spaCy

Библиотека spaCy NLP

Технологии обнаружения

Промышленная open-source библиотека NLP на Python. anonym.legal использует модели spaCy на основе трансформеров для 24 языков (en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko и других) для распознавания именованных сущностей в пайплайне Presidio.

#spacy

Stanza

Библиотека Stanza NLP (Stanford NLP)

Технологии обнаружения

Инструментарий NLP от Stanford NLP Group на Python, поддерживающий более 70 языков с передовыми нейронными моделями. Используется в anonym.legal как дополнительный backend для NER по языкам, не охваченным моделями spaCy.

#stanza

T

TLS

Transport Layer Security

Шифрование и безопасность

Криптографический протокол для защиты данных при передаче. anonym.legal требует минимум TLS 1.2 с предпочтением TLS 1.3, HSTS с максимальным сроком действия один год и HTTP/2. Весь трафик между клиентами и сервером шифруется при передаче.

#tls

Tokenization

Токенизация данных

Конфиденциальность данных и PII

Замена конфиденциальных данных на не чувствительный маркер (токен), который сопоставляется с оригиналом в защищенном хранилище. В отличие от шифрования, сам токен не имеет математической связи с исходными данными.

#tokenization

X

XChaCha20

XChaCha20-Poly1305

Шифрование и безопасность

Аутентифицированный алгоритм шифрования с высокой производительностью на системах без аппаратного ускорения AES. Использует 192-битный одноразовый номер (nonce), расширенный по сравнению со стандартом IETF ChaCha20 (96-битный nonce согласно RFC 8439), что исключает риск коллизий. Используется как альтернативный шифр в слое шифрования anonym.legal.

#xchacha20

XLM-RoBERTa

Многоязычный RoBERTa

Технологии обнаружения

Многоязычная языковая модель на основе трансформеров, обученная на 100 языках и разработанная Meta AI. Используется в anonym.legal для кросс-языковых задач NER, особенно для типов сущностей и языков, для которых нет монолингвальных моделей.

#xlmroberta

Z

Zero-Knowledge

Zero-Knowledge Архитектура

Шифрование и безопасность

Проектирование системы, при котором поставщик услуги не имеет доступа к открытым данным пользователей или их ключам шифрования. Все операции шифрования и дешифрования выполняются на стороне клиента; сервер никогда не видит исходное содержимое. Исключает внутренние угрозы и принудительное раскрытие данных.

#zeroknowledge

ZK Auth

Zero-Knowledge Аутентификация

Шифрование и безопасность

Система аутентификации anonym.legal, в которой ключи шифрования вычисляются на стороне клиента из пользовательской парольной фразы с помощью Argon2id и никогда не передаются и не хранятся на сервере. Сервер хранит только криптографическое доказательство, а не ключ или парольную фразу.

#zkauth