Takaisin BlogiinAI Turvallisuus

39 miljoonaa GitHub-salaisuutta vuodessa 2024...

67% kehittäjistä on vahingossa paljastanut salaisuuksia koodissa (GitGuardian 2025).

March 29, 20268 min lukuaika
GitHub secret leaksdeveloper AI securitycredential exposureMCP Server protectionGitGuardian 2025

39 miljoonan tunnistetiedon ongelma

GitHubin Octoverse 2024 -raportti dokumentoi 39 miljoonaa salaista tietoa vuotaneeksi GitHubista vuoden aikana — 25% kasvu vuodesta vuoteen 2023. Nämä salaisuudet sisältävät API-avaimia, tietokannan yhteysmerkkijonoja, todennusavaimia, yksityisiä sertifikaatteja ja pilvipalveluntarjoajan tunnistetietoja.

Vuotojen lähde on hyvin dokumentoitu: kehittäjät sitouttavat koodia, joka sisältää salaisuuksia — joko vahingossa (virheenkorjauskonfiguraatio jätetty sitoumukseen) tai riittämättömän salaisuuksien hallinnan vuoksi (kovakoodatut tunnistetiedot ympäristömuuttujien sijaan). 39 miljoonan laajuus heijastaa sekä GitHubin kasvua kehitysalustana että epävarmojen kehityskäytäntöjen jatkuvuutta suuressa mittakaavassa.

Mitä Octoverse-tiedot eivät täysin tallenna, on siihen liittyvä ja kasvava vuotovektori: AI-koodausassistenttien vuorovaikutukset. Kun kehittäjät liittävät koodia Claudeen, ChatGPT:hen tai muihin AI-koodausvälineisiin virheenkorjausta, tarkastusta tai optimointiapua varten, liitetty koodi sisältää usein samoja tunnistetietoja, jotka päätyvät GitHubin salaisuusvuotoihin — tietokannan yhteysmerkkijonoja, API-avaimia, sisäisiä palvelu-URL-osoitteita ja todennusavaimia.

Kuinka kehittäjien AI-käyttö aiheuttaa tunnistetietojen paljastumista

GitGuardianin tutkimus vuodelta 2025 havaitsi, että 67% kehittäjistä on vahingossa paljastanut salaisuuksia koodissa. Käyttäytymismallit, jotka tuottavat GitHubin salaisuusvuotoja, ovat samoja käyttäytymismalleja, jotka aiheuttavat AI-työkalujen tunnistetietojen paljastumista — mutta AI-työkalujen vektori on vähemmän näkyvä ja vaikeampi havaita jälkikäteen.

Kehittäjä, joka virheenkorjaa tuotantoyhteysongelmaa, liittää pinojäljen, joka sisältää virheviestissä käytetyn tietokannan yhteysmerkkijonon. AI-malli käsittelee yhteysmerkkijonon, mahdollisesti tallentaa sen keskusteluhistoriaan ja siirtää sen AI-palveluntarjoajan palvelimille. Tunnistetieto on nyt kehittäjän hallinnan ulkopuolella.

Kehittäjä, joka pyytää apua dataputken optimoinnissa, liittää putkikoodin, joka sisältää S3-säiliön nimen, AWS-käyttöavaimen ja salaisen avaimen, jota käytetään todennuksessa. AI-malli vastaanottaa nämä tunnistetiedot osana laillista koodausapua.

Kehittäjä, joka pyytää koodin tarkastusta, liittää API-integraatioimplementoinnin, joka sisältää kumppanin API-avaimen. Tarkastuspyyntö sisältää aktiivisen tuotantotunnistetiedon.

Jokaisessa tapauksessa kehittäjän aikomus on laillinen — he tarvitsevat apua teknisessä ongelmassa. Tunnistetietojen paljastuminen on satunnainen seuraus virheenkorjauskontekstin sisällyttämisestä. Kaava heijastaa tarkasti, kuinka salaisuudet päätyvät GitHubiin: ei pahantahtoista paljastamista, vaan satunnaista sisällyttämistä.

CI/CD-putken vuototrendi

Kehittäjien PII- ja salaisuusvuodot CI/CD-putkissa kasvoivat 34% vuonna 2024, tietojen seurannan mukaan. Lähde on samanlainen: rakennusskriptit, käyttöönottoasetukset ja infrastruktuuri-kooditiedostot tarkastetaan yhä enemmän AI-työkalujen avulla. Nämä tiedostot sisältävät säännöllisesti ympäristömuuttujaviittauksia, pilvipalveluntarjoajan tunnistetietoja ja palvelutilin tunnuksia.

Kun AI-työkalujen käyttö kehitysprosesseissa kasvaa — kehittäjät käyttävät AI:ta koodin tarkastuksessa, dokumentoinnissa, virheenkorjauksessa ja optimoinnissa koko kehityssyklin ajan — satunnaisten tunnistetietojen paljastumisen pinta-ala kasvaa suhteellisesti.

MCP-arkkitehtuuriratkaisu

Kehitystiimeille, jotka käyttävät Claude Desktopia tai Cursor IDE:tä ensisijaisina AI-koodausvälineinään, Mallin Konteksti Protokolla (MCP) -arkkitehtuuri tarjoaa läpinäkyvän tunnistetietojen sieppaustason.

MCP-palvelin sijaitsee kehittäjän AI-asiakkaan ja AI-mallin API:n välissä. Kaikki MCP-protokollan kautta siirretty teksti — mukaan lukien liitetty koodi, pinojäljet, konfiguraatiotiedostot ja virheenkorjauskonteksti — kulkee anonymisointimoottorin läpi ennen kuin se saavuttaa AI-mallin.

Anonymisointimoottori havaitsee tunnistetietomaisia kaavoja: API-avainten muotoja, tietokannan yhteysmerkkijonojen rakenteita, OAuth-tunnusten muotoja, yksityisten avainten otsikoita ja turvallisuustiimin määrittelemiä mukautettuja tunnistetietomuotoja. Nämä kaavat korvataan rakenteellisilla tunnuksilla ennen siirtoa.

Kehittäjälle, joka virheenkorjaa tuotantoyhteysongelmaa: pinojälki, joka sisältää tietokannan yhteysmerkkijonon, saapuu MCP-palvelimelle. Yhteysmerkkijono korvataan tunnuksella ([DB_CONNECTION_1]). AI-malli vastaanottaa pinojäljen tunnus korvattuna. Virheenkorjausapua annetaan anonymisoidun version perusteella. Kehittäjä saa vastauksen, joka käyttää samaa tunnusta — riittävä ymmärtämään teknisen ongelman. Todellinen tunnistetieto ei koskaan poistunut yritysverkosta.

39 miljoonaa GitHub-salaista vuotoa heijastaa riittämättömien kontrollien seurausta tunnetusta vuotovektorista. AI-koodausassistentin tunnistetietojen paljastuminen on sama vuotovektori vähemmän valvotussa kanavassa. Tekninen kontrolli, joka käsittelee molempia, on tunnistetietojen sieppaus ennen siirtoa.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.