Превенция срещу откриване: Защо анонимизирането на PII в реално време е единствената ефективна защита срещу изтичане на данни от AI
Инцидентът Samsung ChatGPT от март 2023 г. илюстрира фундаменталното ограничение на последващите контроли за сигурност: инженер на Samsung постави патентован изходен код в ChatGPT, преди каквато и да е система за наблюдение или превенция да може да се намеси. Кодът остави управлението на Samsung с едно натискане на клавиш.
Мониторингът на регистрационните файлове, DLP на крайната точка и анонимизирането след факта са инструменти за откриване. Те ви казват какво се е случило, след като се е случило. За изтичане на AI данни откриването след предаване е твърде късно. Данните вече са обработени от AI модела, потенциално включени в данните за обучение и вече не са под ваш контрол.
Мащабът на проблема
Проучване на Cyberhaven от 2025 г. анализира използването на корпоративни AI инструменти в хиляди организации:
- 11% от всички подкани ChatGPT съдържат поверителни или лични данни
- Средният служител взаимодейства с AI инструменти 14 пъти на ден
- Силно използвани служители (адвокати, анализатори, персонал за обслужване на клиенти): 30-50 AI взаимодействия дневно
- При 11%, съдържащи поверителни данни: 3-5 поверителни предавания на служител с висока употреба на ден
В организация с 500 служители с висока употреба това означава 1500-2500 предавания на поверителни данни към външни AI системи на ден. Всяко предаване е потенциално нарушение на член 83 от GDPR, ако са включени лични данни.
Какво представлява поверителни или лични данни в подканите на AI:
- Имена на клиенти и информация за контакт (помолен за изготвяне на съобщения за клиенти)
- Номера на сметки и финансови подробности (поискани за анализ на транзакции)
- Медицинска информация (здравни работници, които искат клинично ръководство)
- Подробности за юридически казус (адвокати, които искат анализ на договора)
- Информация за служителите (човешки ресурси, които искат помощ за преглед на представянето)
- Вътрешни бизнес данни (финансови прогнози, непубликувани продуктови планове)
Изследването Cyberhaven не прави разлика между умишленото споделяне на данни (служителят умишлено споделя клиентски данни) и случайното (служителят включва данни, без да взема предвид последиците от обучението на AI). И двете създават една и съща експозиция.
Защо откриването е недостатъчно
Мониторинг на мрежово ниво: HTTPS криптирането означава, че ISP и мрежовите устройства не могат да проверяват съдържанието на AI подкана без проверка на TLS (MITM). Проверката на TLS въвежда собствени опасения за поверителността и сигурността, създава излишни разходи за дешифриране и често се блокира от модерни браузъри и приложения.
Endpoint DLP: Endpoint агентите могат да наблюдават съдържанието на клипборда и натисканията на клавиши, но работят с присъщо забавяне. Докато DLP агентът обработва последователност от натискания на клавиши и идентифицира модел на нарушение, данните може вече да са изпратени. DLP е по-добър за ексфилтриране на данни, базирани на файлове, отколкото въвеждане на AI чрез браузър.
**Одитни регистрационни файлове на доставчици на AI: ** Някои корпоративни планове за AI предоставят одитно регистриране на подкани. Това ви казва какво е споделено, след като е било споделено. Полезно за реагиране при инциденти, не за превенция.
Обучение на служители: „Не поставяйте клиентски данни в ChatGPT“ е политика, а не контрол. Проучването на Cyberhaven показва, че дори при въведени политики, 11% от подканите съдържат поверителни данни. Обучението е насочено към умишлени нарушения; не се отнася до случайно споделяне или служители, които знаят политиката, но забравят в потока на работа.
Блокиране на AI инструменти: Ядрената опция. Организациите, които блокират всички AI инструменти, губят ползите от производителността, които доведоха до внедряването. Shadow IT обикновено замества блокираните инструменти — служителите използват лични устройства или лични акаунти с изкуствен интелект, извън всякакво наблюдение.
Нито един от тези подходи не предотвратява достигането на поверителни данни до AI системите в реално време.
Превенция на входната точка
Единствената ефективна защита срещу изтичане на данни от AI в реално време е анонимизирането, преди данните да бъдат изпратени. Ако името на клиента „Сара Джонсън“ се замени с „[PERSON_1]“, преди подканата да напусне браузъра, AI моделът не получава лични данни — независимо от това какви системи за наблюдение могат или не могат да уловят.
Как работи вградената профилактика:
- Служителят въвежда имейл на клиент в интерфейса Claude или ChatGPT
- Разширението на браузъра открива PII в полето за въвеждане в реално време
- PII се подчертава с етикети за тип обект (PERSON, EMAIL_ADDRESS, ACCOUNT_NUMBER)
- Служителят преглежда маркираните обекти
- Анонимизирането с едно щракване замества PII с етикетирани токени
- Подава се анонимизирана подкана
AI получава: „Клиент [PERSON_1] на [EMAIL_1] има акаунт [ACCOUNT_1] и пита за...“
Отговорът на AI адресира заявката, без да е получил действителните данни за клиента. Служителят може да идентифицира отново контекста на отговора, като използва знанието си за кой [ЛИЦЕ_1] пита.
Какво предотвратява това:
- Лични данни (GDPR член 4) от достигане до външни AI процесори без подходящи предпазни мерки
- PII на клиента от включването им в данните за обучение на AI
- Загуба на производителност на служителите от пълно блокиране на AI инструменти
Какво не предотвратява:
- Умишлено споделяне (служителят умишлено въвежда имена директно, след като види предложението за анонимизиране)
- Съдържание, което не е идентифицирано като PII (конкретни подробности за продукта, вътрешни процеси)
- Споделяне чрез прикачени файлове (изисква отделен работен процес за анонимизиране на файлове)
Предотвратяването чрез вградена анонимност не е перфектно – няма контрол. Но намалява процента на инциденти от 11%, като елиминира категорията случайни и невнимателни, които представляват повечето случаи.
Внедряване: Казус от адвокатска кантора
Сътрудниците на адвокатска кантора използваха Claude за изготвяне на резюмета на договора. Работният процес: копирайте съответните раздели на договора, поставете в Claude, поискайте резюме.
Преди внедряването на разширение за Chrome (6 месеца):
- 3 инцидента с PII на клиента, открити по време на тримесечен преглед на съответствието
- Всеки инцидент: име на клиент + референтен номер на въпроса, включени в подканата Claude
- И трите бяха случайни - сътрудниците не разбраха, че препратките към въпроса представляват PII на клиента
След внедряване на разширение за Chrome (6 месеца):
- Нула клиентски PII инциденти
- Сътрудниците получават подчертаване в реално време, когато поставят секции на договор, съдържащи имена на клиенти – Анонимизирането с едно кликване замени „Johnson Controls Matter 2024-0347“ с „[PERSON_1] Matter [REFERENCE_1]“
- Работният процес непроменен — сътрудниците все още използват Claude за помощ при изготвяне
Управляващият партньор приписва подобрението на модела за превенция, а не на по-доброто обучение: „Нашите сътрудници знаеха политиката преди удължаването. Удължаването превърна съответствието в пътя на най-малкото съпротивление.“
GDPR Документация за съответствие
За организации, които внедряват базирана на браузър AI анонимизация като технически контрол:
Записи за дейности по обработка (ROPA): „Взаимодействията с изкуствен интелект за поддръжка на клиенти се обработват чрез анонимизиране на PII от страна на клиента, преди да бъдат изпратени на външни доставчици на изкуствен интелект. Открити типове обекти: [списък]. Машина за откриване: [версия]. Доказателство за контрол: регистрационните файлове за внедряване на разширението на Chrome показват процент на анонимизиране по служител.“
Споразумение за обработка на данни: Доставчикът на AI (OpenAI, Anthropic, Google) е процесор за данни. Ако никакви лични данни не достигнат до доставчика на AI, задълженията на DPA са опростени — личните данни, за които отговаряте, никога не достигат до тях.
Одитни доказателства: Регистрационните файлове за внедряване на разширението на Chrome показват: брой открити обекти, процент на откритите обекти, анонимизирани преди изпращане, типове обекти, открити най-често. Организационните табла за управление събират тези данни за отчитане на съответствието.
Заключение
Инцидентът Samsung ChatGPT установи, че изтичането на данни от AI в реално време може да се случи по-бързо, отколкото който и да е последващ контрол на сигурността може да реагира. Проучването Cyberhaven определя количествено мащаба: 11% от подканите, няколко пъти на служител на ден, в мащаб на предприятието.
Превенцията чрез вградена анонимност в реално време адресира първопричината, а не симптомите. Когато личните данни никога не достигат до AI модела, няма изтичане, което да се открие, регистрира или коригира. Служителят запазва производителността на AI. Организацията запазва съответствието на GDPR.
Откриването е това, което правите, когато превенцията се провали. За изтичането на данни от AI, цената на неуспеха (регулаторни глоби, увреждане на репутацията, ерозия на доверието на клиентите) оправдава инвестирането в превенция.
Източници:
- [Cyberhaven: Проучване на експозицията на данни от AI 2025] (https://www.cyberhaven.com/engineering/ai-data-exposure-study-2025/)
- Samsung ChatGPT Нарушение на данните, март 2023 г.
- [GDPR членове 4, 32: Дефиниция на лични данни и технически мерки] (https://gdpr-info.eu)