Prewencja PII w czasie rzeczywistym: jak zatrzymać wycieki danych AI zanim do nich dojdzie
Zaktualizowano na rok 2026.
W marcu 2023 roku inżynier Samsunga wkleił kod źródłowy do ChatGPT. Kod natychmiast opuścił kontrolę Samsunga. Żadne narzędzie nie zdążyło tego przechwycić. Retroaktywne środki bezpieczeństwa nie są w stanie zatrzymać wycieków danych AI. To jedno zdarzenie to udowodniło.
Narzędzia do wykrywania informują o tym, co stało się po fakcie. Kontrole logów, endpoint DLP i dzienniki audytu działają właśnie w ten sposób. W przypadku wycieków AI — po fakcie jest za późno. Dane trafiły już do modelu AI.
Skala problemu
Badanie Cyberhaven z 2025 roku przeanalizowało sposób, w jaki firmy korzystają z AI. Wyniki były zaskakujące.
- 11% wszystkich promptów ChatGPT zawiera prywatne lub wrażliwe dane.
- Przeciętny pracownik korzysta z narzędzi AI 14 razy dziennie.
- Intensywni użytkownicy wchodzą w interakcje 30–50 razy dziennie.
- Przy wskaźniku 11% oznacza to 3–5 wrażliwych wysyłek na pracownika dziennie.
W firmie z 500 intensywnymi użytkownikami daje to ponad 2000 wrażliwych wysyłek dziennie. Każda z nich może stanowić naruszenie z Artykułu 83 RODO. Ryzyko nie jest wyłącznie prawne. Zagrożone są też zaufanie i reputacja.
Typowe kategorie wrażliwych treści w promptach AI:
- Nazwiska i dane kontaktowe klientów.
- Numery kont i dane płatnicze.
- Notatki medyczne od pracowników ochrony zdrowia.
- Szczegóły spraw od prawników.
- Notatki z ocen pracowniczych od zespołów HR.
- Wewnętrzne prognozy przychodów lub sprzedaży.
Badanie nie rozróżnia celowego od nieumyślnego udostępniania. Oba tworzą to samo ryzyko prawne. Pracownik, który zapomina usunąć nazwisko klienta, powoduje takie samo naruszenie jak ten, który świadomie ignoruje zasady. Zamiar nie zmienia skutku.
Dlaczego wykrywanie jest niewystarczające
Kontrola sieci nie może odczytać ruchu HTTPS bez blokowania TLS. Blokowanie TLS zwiększa obciążenie i budzi obawy o prywatność. Nowoczesne przeglądarki często je odrzucają.
Endpoint DLP monitoruje schowek i dane wprowadzane z klawiatury. Ale ma opóźnienie. Zanim agent oznaczy wzorzec, prompt może być już wysłany.
Dzienniki audytu dostawcy rejestrują to, co zostało udostępnione — po udostępnieniu. Pomagają w reagowaniu. Nie zapobiegają wyciekom.
Szkolenia pracownicze to polityka, a nie środek kontroli. Badanie Cyberhaven pokazuje, że 11% promptów nadal zawiera wrażliwe treści w firmach z jasno określonymi zasadami. Szkolenia nie zapobiegają przypadkowemu udostępnianiu ani chwilowym zaniedbaniom.
Blokowanie narzędzi AI pozbawia firmy korzyści z produktywności. Pracownicy korzystają wtedy z prywatnych urządzeń lub kont. To wysuwa pracę poza jakikolwiek nadzór.
Żadna z tych metod nie powstrzymuje wrażliwych treści przed trafieniem do systemów AI w czasie rzeczywistym.
Prewencja w punkcie wejścia
Jedyną skuteczną ochroną jest maskowanie przed wysłaniem promptu. Nazwisko klienta zastąpione przez [PERSON_1] zanim opuści przeglądarkę — model AI nigdy go nie zobaczy.
Oto jak działa maskowanie wbudowane:
- Pracownik wpisuje adres e-mail klienta do Claude lub ChatGPT.
- Dodatek do przeglądarki wykrywa dane osobowe w czasie rzeczywistym.
- Encje są oznaczane etykietami: PERSON, EMAIL_ADDRESS, ACCOUNT_NUMBER.
- Pracownik przegląda oznaczone elementy.
- Jedno kliknięcie zamienia wszystkie encje na tokeny.
- Zamaskowany prompt zostaje wysłany.
Model AI otrzymuje prompt w stylu: „Klient [PERSON_1] pod adresem [EMAIL_1] ma konto [ACCOUNT_1].”
Model obsługuje zapytanie, nigdy nie widząc prawdziwych imion ani numerów. Pracownik zna rzeczywistego klienta z kontekstu.
To podejście ma wyraźne zalety.
- Dane osobowe nie trafiają do zewnętrznych systemów AI.
- Dane klientów nie zasilają zestawów treningowych AI.
- Pracownicy zachowują dostęp do narzędzi AI. Produktywność pozostaje wysoka.
Nie blokuje celowego udostępniania, jeśli pracownik omija narzędzie. Przesyłanie plików wymaga osobnego przepływu pracy. Żadna kontrola nie jest doskonała. Ale maskowanie wbudowane eliminuje grupę przypadkowych incydentów, która stanowi większość zdarzeń. Efektem jest znaczący spadek ryzyka bez zmiany codziennego workflow.
Studium przypadku: kancelaria prawna
Pracownicy kancelarii prawnej używali Claude do sporządzania notatek z umów. Metoda: kopiowali fragmenty umów, wklejali do Claude i prosili o podsumowanie.
Przed wdrożeniem rozszerzenia Chrome — pierwsze 6 miesięcy:
- 3 incydenty z danymi klientów wykryte podczas przeglądu.
- Każdy incydent: nazwisko klienta oraz numer sprawy pojawiły się w prompcie.
- Wszystkie 3 były niezamierzone.
Po wdrożeniu rozszerzenia Chrome — kolejne 6 miesięcy:
- Zero incydentów z danymi klientów.
- Pracownicy otrzymywali alerty w czasie rzeczywistym przy wklejaniu fragmentów zawierających nazwiska klientów.
- Jedno kliknięcie zamieniało „Johnson Controls Sprawa 2024-0347” na „[PERSON_1] Sprawa [REFERENCE_1]”.
- Metoda pracy pozostała niezmieniona.
Zarządzający partnerem powiedział: „Nasi pracownicy znali politykę przed wdrożeniem dodatku. Dodatek sprawił, że zgodność stała się najłatwiejszą ścieżką.”
Poznaj inne przypadki w naszych studiach przypadków. Przejrzyj środki kontroli w przeglądzie bezpieczeństwa.
Dokumentacja RODO dla zespołów ds. zgodności
Firmy stosujące maskowanie AI w przeglądarce muszą udokumentować je jako środek techniczny.
Rejestr czynności przetwarzania (ROPA): Wskaż, że prompty AI przechodzą przez maskowanie po stronie klienta przed dotarciem do dostawców. Wymień typy encji, wersję silnika i dzienniki wdrożeń jako dowód.
Umowy z podmiotami przetwarzającymi: Gdy żadne dane osobowe nie trafiają do dostawcy AI, obowiązki wynikające z umów powierzenia są proste. Dane osobowe, które posiadasz, nigdy nie opuszczają Twojego systemu.
Dzienniki audytu: Dzienniki dodatku rejestrują liczbę encji na sesję, wskaźnik maskowania i typy encji według wolumenu. Te metryki zasilają raporty zgodności.
Zapoznaj się z zasadami RODO dotyczącymi narzędzi AI w naszym przewodniku prawnym dotyczącym zgodności i słowniku. Odpowiedzi na typowe pytania znajdziesz w naszym FAQ.
Wnioski
Incydent Samsunga pokazał, że wycieki AI następują szybciej, niż jakikolwiek retroaktywny środek kontroli jest w stanie zareagować. Badanie Cyberhaven podało konkretną liczbę: 11% promptów, wielokrotnie dziennie, każdego pracownika.
Maskowanie w czasie rzeczywistym przed wysłaniem naprawia podstawową przyczynę. Gdy dane osobowe nigdy nie trafiają do AI, nie ma niczego do wykrycia, logowania ani czyszczenia. Pracownicy zachowują narzędzia AI. Firmy zachowują status zgodności.
Wykrywanie informuje, kiedy prewencja zawiodła. W przypadku wycieków danych AI koszt niepowodzenia — kary, utrata reputacji, utrata zaufania — uzasadnia prewencję jako podejście priorytetowe.
Sprawdź cennik dla swojej firmy. Przeczytaj oświadczenie założyciela o tym, dlaczego prewencja jako podstawowa zasada projektowania jest naszym fundamentem.
Źródła
- Cyberhaven: Badanie ekspozycji danych AI 2025 — cyberhaven.com.
- Wyciek danych Samsunga przez ChatGPT, marzec 2023 — Bloomberg.
- RODO Artykuły 4 i 32: Dane osobowe i środki techniczne — gdpr-info.eu.