39 milionów danych uwierzytelniających wyciekło w ciągu roku
Raport GitHub Octoverse 2024 odnotował 39 milionów wyciekłych sekretów na GitHubie w 2024 r. To wzrost o 25% rok do roku względem 2023 r. Wśród sekretów znalazły się klucze API, ciągi połączeń z bazami danych, tokeny uwierzytelniające i dane uwierzytelniające do chmury.
Przyczyna jest znana. Programiści umieszczają kod z sekretami w commitach. Sekrety pochodzą z sesji debugowania lub są zakodowane na stałe zamiast przechowywane w zmiennych środowiskowych. Przy 39 milionach wycieków to nie jest rzadkość — to rutyna.
Narzędzia AI dodają drugi kanał wycieku
Badania GitGuardian z 2025 r. wykazały, że 67% programistów przypadkowo ujawniło sekrety w kodzie. Te same nawyki, które tworzą wycieki na GitHubie, tworzą też wycieki przez narzędzia AI.
Programista wkleja kod do Claude, ChatGPT lub innego asystenta AI, szukając pomocy. Ten kod często zawiera aktywne dane uwierzytelniające. Model AI otrzymuje sekret, może go przechowywać w historii rozmowy, wysyła go na serwery dostawcy. Programista traci kontrolę — bez żadnego ostrzeżenia.
Trzy przykłady:
Debugowanie bazy danych. Programista wkleja ślad stosu. Ślad zawiera ciąg połączenia. AI odczytuje też hasło.
Przegląd potoku danych. Programista udostępnia skrypt potoku danych. Skrypt zawiera klucz dostępu AWS i klucz tajny. AI otrzymuje oba.
Przegląd integracji API. Programista prosi o opinię na temat integracji. Kod zawiera aktywny klucz API partnera. Klucz opuszcza sieć programisty.
W każdym przypadku cel jest uzasadniony. Wyciek danych uwierzytelniających jest efektem ubocznym przekazania AI wystarczającego kontekstu. To ten sam wzorzec co wycieki na GitHubie — nie złośliwy, po prostu rutynowy.
Potoki CI/CD mierzą się z tym samym ryzykiem
Wycieki sekretów z potoków CI/CD wzrosły o 34% w 2024 r. Skrypty budowania, konfiguracje wdrożeń i pliki infrastruktury jako kodu — wszystkie przechodzą teraz przez przegląd AI. Te pliki często zawierają dane uwierzytelniające do chmury i tokeny kont usług.
W miarę jak narzędzia AI obejmują coraz więcej cyklu deweloperskiego — przegląd, dokumentacja, debugowanie, optymalizacja — powierzchnia ekspozycji rośnie wraz z nimi.
Jak architektura MCP blokuje wycieki
Dla zespołów korzystających z Claude Desktop lub Cursor IDE architektura serwera Model Context Protocol (MCP) umieszcza filtr danych uwierzytelniających na ścieżce między programistą a modelem AI.
Serwer MCP obsługuje każdy tekst przepływający przez sesję. Wklejony kod, ślady stosu, pliki konfiguracyjne, kontekst debugowania — wszystko przechodzi przez krok anonimizacji, zanim model to zobaczy.
Silnik wykrywa wzorce danych uwierzytelniających: formaty kluczy API, ciągi baz danych, tokeny OAuth, nagłówki kluczy prywatnych i własne formaty zdefiniowane przez zespół bezpieczeństwa. Każde trafienie jest zastępowane tokenem przed transmisją.
Jak to wygląda w praktyce:
Programista wkleja ślad stosu zawierający ciąg połączenia z bazą danych. Serwer MCP zastępuje ciąg przez [DB_CONNECTION_1]. AI widzi ślad z tokenem na właściwym miejscu. Udziela pomocy w debugowaniu na podstawie zanonimizowanej wersji. Rzeczywiste dane uwierzytelniające nigdy nie opuściły sieci wewnętrznej.
To zatrzymuje ten sam wektor wycieku, który zapełnia GitHub sekretami. Kanał jest inny — narzędzia AI zamiast commitów git — ale rozwiązanie działa tak samo: zablokuj przed transmisją.
Zobacz nasz przegląd bezpieczeństwa, aby dowiedzieć się, jak anonym.legal obsługuje to w narzędziach AI i przepływach pracy z dokumentami, oraz centrum zgodności dla kontroli audytu.
Wykrycie po fakcie jest za późne
Niektóre zespoły używają skanowania po commicie do wychwytywania wyciekłych sekretów. GitGuardian i truffleHog dobrze działają dla kanału GitHub. Nie obejmują sesji z narzędziami AI.
Gdy sekret dotrze na serwery dostawcy AI, ekspozycja jest już dokonana. Skanowanie ją wykrywa po fakcie. Anonimizacja na poziomie MCP zatrzymuje sekret, zanim w ogóle dotrze do modelu.
39 milionów wycieków z GitHub dokumentuje jeden kanał. Ekspozycja przez narzędzia AI to ten sam problem w kanale z mniejszym monitoringiem i bez ścieżki audytu. Zapobieganie przed transmisją obejmuje oba.