Problemet med 39 Millioner Legitimasjoner
GitHubs Octoverse 2024-rapport dokumenterte 39 millioner hemmeligheter lekket på GitHub i løpet av året — en 25% økning fra året før i 2023. Disse hemmelighetene inkluderer API-nøkler, databaseforbindelsesstrenger, autentiseringstokener, private sertifikater og legitimasjoner fra skyleverandører.
Kilden til disse lekkasjene er godt dokumentert: utviklere forplikter seg til kode som inneholder hemmeligheter — enten ved et uhell (feilsøkingskonfigurasjon etterlatt i en forpliktelse) eller gjennom utilstrekkelig hemmelighetsforvaltning (hardkodede legitimasjoner i stedet for miljøvariabler). Omfanget av 39 millioner gjenspeiler både veksten av GitHub som en utviklingsplattform og vedvarende usikre utviklingspraksiser i stor skala.
Det Octoverse-dataene ikke fullt ut fanger opp, er en relatert og voksende lekkasjevektor: interaksjoner med AI-kodingassistenter. Når utviklere limer inn kode i Claude, ChatGPT eller andre AI-kodingverktøy for feilsøking, gjennomgang eller optimaliseringshjelp, inneholder koden de limer inn ofte de samme legitimasjonene som ender opp i GitHub-hemmelighetslekkasjer — databaseforbindelsesstrenger, API-nøkler, interne tjeneste-URLer og autentiseringstokener.
Hvordan Utvikleres Bruk av AI Skaper Legitimasjonseksponering
GitGuardian-forskning fra 2025 fant at 67% av utviklere har ved et uhell eksponert hemmeligheter i kode. Atferdsmønstrene som produserer GitHub-hemmelighetslekkasjer er de samme atferdsmønstrene som produserer eksponering av legitimasjoner i AI-verktøy — men AI-verktøysvektoren er mindre synlig og vanskeligere å oppdage i ettertid.
En utvikler som feilsøker et produksjonsforbindelsesproblem limer inn en stakketrace som inkluderer databaseforbindelsesstrengen som brukes i feilmeldingen. AI-modellen behandler forbindelsesstrengen, lagrer den potensielt i samtalehistorikken, og sender den til AI-leverandørens servere. Legitimasjonen er nå utenfor utviklerens kontroll.
En utvikler som ber om hjelp til å optimalisere en datapipeline limer inn pipeline-koden, inkludert S3-bøttens navn, AWS tilgangsnøkkel og hemmelig nøkkel brukt til autentisering. AI-modellen mottar disse legitimasjonene som en del av legitim kodinghjelp.
En utvikler som ber om kodegjennomgang limer inn en API-integrasjonsimplementering som inkluderer partnerens API-nøkkel. Gjennomgangsforespørselen inneholder en aktiv produksjonslegitimasjon.
I hvert tilfelle er utviklerens intensjon legitim — de trenger hjelp med et teknisk problem. Legitimasjonseksponeringen er en tilfeldig konsekvens av å inkludere feilsøkingskontekst. Mønsteret speiler nøyaktig hvordan hemmeligheter ender opp i GitHub: ikke ondsinnet avsløring, men tilfeldig inkludering.
Trenden med CI/CD Pipeline Lekkasjer
Utvikler PII og hemmelighetslekkasjer i CI/CD-pipelines økte med 34% i 2024, ifølge sporingsdata. Kilden er lik: byggeskript, distribusjonskonfigurasjoner og infrastruktur-som-kode-filer blir i økende grad gjennomgått med AI-verktøy. Disse filene inneholder rutinemessig referanser til miljøvariabler, legitimasjoner fra skyleverandører og tjenestekonto-token.
Etter hvert som bruken av AI-verktøy i utviklingsarbeidsflyter vokser — utviklere bruker AI til kodegjennomgang, dokumentasjon, feilsøking og optimalisering gjennom hele utviklingssyklusen — vokser overflaten for tilfeldig legitimasjonseksponering proporsjonalt.
Løsningen med MCP-arkitektur
For utviklingsteam som bruker Claude Desktop eller Cursor IDE som sine primære AI-kodingverktøy, gir Model Context Protocol (MCP) arkitektur et transparent lag for legitimasjonsintersept.
MCP-serveren sitter mellom utviklerens AI-klient og AI-modellens API. All tekst som sendes gjennom MCP-protokollen — inkludert limt inn kode, stakketraces, konfigurasjonsfiler og feilsøkingskontekst — går gjennom en anonymiseringsmotor før den når AI-modellen.
Anonymiseringsmotoren oppdager legitimasjonslignende mønstre: API-nøkkelformater, strukturer for databaseforbindelsesstrenger, OAuth-tokenformater, private nøkkelhoder og tilpassede proprietære legitimasjonsformater konfigurert av sikkerhetsteamet. Disse mønstrene blir erstattet med strukturerte token før overføring.
For utvikleren som feilsøker et produksjonsforbindelsesproblem: stakketracen som inneholder databaseforbindelsesstrengen ankommer MCP-serveren. Forbindelsesstrengen blir erstattet med et token ([DB_CONNECTION_1]). AI-modellen mottar stakketracen med legitimasjonen erstattet. Feilsøkingshjelpen gis basert på den anonymiserte versjonen. Utvikleren mottar et svar som bruker det samme tokenet — tilstrekkelig til å forstå det tekniske problemet. Den faktiske legitimasjonen forlot aldri det bedriftsnettverket.
De 39 millioner GitHub-hemmelighetslekkasjene reflekterer konsekvensen av utilstrekkelige kontroller på en kjent lekkasjevektor. Eksponering av legitimasjoner fra AI-kodingassistenter er den samme lekkasjevektoren i en mindre overvåket kanal. Den tekniske kontrollen som adresserer begge er legitimasjonsintersept før overføring.
Kilder: