Prevence vs. detekce: Proč je anonymizace PII v reálném čase jedinou účinnou obranou proti únikům dat AI
Incident Samsung ChatGPT z března 2023 ilustruje základní omezení dodatečných bezpečnostních kontrol: inženýr Samsung vložil proprietární zdrojový kód do ChatGPT dříve, než mohl jakýkoli monitoring nebo preventivní systém zasáhnout. Kód opustil kontrolu Samsungu jediným stisknutím klávesy.
Monitorování protokolů, DLP na endpointu a dodatečná anonymizace jsou detekční nástroje. Říkají vám, co se stalo poté, co se to stalo. Pro únik dat AI je detekce po přenosu příliš pozdě.
Schéma úniku dat AI
Typická sekvence úniku PII prostřednictvím AI nástroje:
- Zaměstnanec otevře ChatGPT
- Vloží text zákazníka, případ podpory nebo interní dokument
- ChatGPT odesílá požadavek na servery OpenAI (mezinárodně)
- Data jsou zpracována, potenciálně zaznamenána pro trénování modelu
- DLP systém detekuje anomálii — 4–8 hodin po odeslání
V kroku 3 jsou data mimo vaše firemní hranice. Kroky 4 a 5 jsou irelevantní z perspektivy GDPR — přenos osobních dat zákazníků EU na zahraniční servery bez právního základu je porušením, ať už detekujete kdykoli.
Proč tradiční DLP selhává u AI nástrojů
Problém 1: Přenos v reálném čase Tradiční DLP byl navržen pro zastavení příloh e-mailů a nahrávání souborů — přenosů s latencí alespoň sekund. Přenosy ChatGPT probíhají ve zlomcích sekund prostřednictvím HTTPS.
Problém 2: Šifrování obsahu Moderní DLP nástroje nemohou inspektovat šifrovaný provoz HTTPS bez SSL inspection — která sama o sobě vytváří bezpečnostní rizika a výkonnostní problémy.
Problém 3: Kontextová slepota DLP pravidla vyžadují vzory (čísla kreditních karet, čísla SSN). Implicitní PII — jméno zákazníka v kontextu podpory, kombinace jméno+adresa — přechází neklasifikováno.
Problém 4: Monitorování chování bez prevence Nástroje behaviorální analýzy mohou identifikovat neobvyklé sdílení, ale nemohou zastavit přenos, který se odehrává.
Přístup prevence: Zachycení před odesláním
Rozšíření prohlížeče schopné detekce PII v reálném čase zachytí PII ve vstupním poli chatbotu před odesláním:
Tok prevence:
- Zaměstnanec píše do ChatGPT výzvu obsahující jméno zákazníka
- Rozšíření detekuje PERSON entitu v reálném čase (latence < 100 ms)
- PII je nahrazeno
[ZÁKAZNÍK]dříve, než je výzva odeslána - ChatGPT přijme anonymizovanou výzvu — žádná PII nepřenesena
- Odpověď obsahuje kontextově relevantní radu bez expozice dat
Příklad:
- Původní: „Zákazník Jan Novák z Brna si stěžuje na..."
- Přeneseno: „Zákazník [JMÉNO] z [MĚSTO] si stěžuje na..."
Kvantifikace: Studie Cyberhaven
Studie datových toků Cyberhaven z roku 2024 z 1,6 milionu zaměstnanců zjistila:
- 11 % výzev ChatGPT obsahovalo důvěrná firemní data
- 3,1 % výzev obsahovalo zákaznická jména nebo identifikátory
- 1,8 % obsahovalo interní dokumenty nebo zdrojový kód
- 0,9 % obsahovalo finanční data zákazníků
Pro organizaci s 1 000 zaměstnananci:
- 110 zaměstnanců denně odesílá důvěrná data do ChatGPT
- 31 odesílá zákaznická data
Detekce: tyto incidenty mohou být zaznamenány zpětně Prevence: tyto incidenty nikdy nenastávají
Implementace: Chrome rozšíření anonym.legal
Rozšíření Chrome anonym.legal zachycuje PII napříč:
- ChatGPT (chat.openai.com)
- Claude (claude.ai)
- Gemini (gemini.google.com)
- Perplexity (perplexity.ai)
- DeepSeek (chat.deepseek.com)
Konfigurace: vyberete typy entit k zachycení → rozšíření anonymizuje v reálném čase při psaní, ne při odeslání.
Zdroje: Zpráva o riziku AI nástrojů Cyberhaven 2024 · Incident Samsung ChatGPT · Nařízení GDPR článek 46