39 miljoonaa tunnistetietoa vuoti yhden vuoden aikana
GitHubin Octoverse 2024 -raportti havaitsi 39 miljoonaa GitHubiin vuotanutta salaisuutta vuonna 2024. Se on 25 % vuosikasvua vuodesta 2023. Salaisuudet sisältävät API-avaimia, tietokantamerkkijonoja, todennustokeneita ja pilvipalvelutunnistetietoja.
Syy on tiedossa. Kehittäjät sitoutuvat koodiin, jossa on salaisuuksia sisällä. Salaisuudet tulevat debug-istunnoista. Tai ne on kovakoodattu ympäristömuuttujiin tallentamisen sijasta. 39 miljoonalla vuodolla tämä ei ole harvinaista. Se on rutiinia.
Tekoälytyökalut lisäävät toisen vuotokanavan
GitGuardianin vuoden 2025 tutkimus havaitsi, että 67 % kehittäjistä on vahingossa paljastanut salaisuuksia koodissa. Samat tavat, jotka luovat GitHub-vuotoja, luovat myös tekoälytyökaluvuotoja.
Kehittäjä liittää koodin Claudeen, ChatGPT:hen tai toiseen tekoälyavustajaan avuksi. Tässä koodissa on usein käytössä olevia tunnistetietoja. Tekoälymalli vastaanottaa salaisuuden. Se voi tallentaa sen keskusteluhistoriaan. Se lähettää sen palveluntarjoajan palvelimille. Kehittäjä menettää hallinnan — ilman varoitusta.
Kolme esimerkkiä:
Tietokannan debuggaus. Kehittäjä liittää pinojäljityksen. Jäljitys sisältää yhteysmerkkijonon. Tekoäly lukee myös salasanan.
Putkilinjan tarkistus. Kehittäjä jakaa dataputkilinjakomentosarjan. Komentosarjassa on AWS-käyttöavain ja salainen avain. Tekoäly vastaanottaa molemmat.
API-integraation tarkistus. Kehittäjä pyytää palautetta integraatiosta. Koodi sisältää käytössä olevan kumppanin API-avaimen. Avain poistuu kehittäjän verkosta.
Jokaisessa tapauksessa tavoite on laillinen apu. Tunnistetietovuoto on sivuvaikutus siitä, että tekoälylle annetaan riittävästi kontekstia. Tämä on sama malli kuin GitHub-vuodot — ei pahantahtoinen, vaan rutiininomainen.
CI/CD-putkilinjoilla on sama riski
CI/CD-putkilinjan salaisuusvuodot kasvoivat 34 % vuonna 2024. Rakennuskomentosarjat, käyttöönottokonfiguraatiot ja infrastruktuuri koodina -tiedostot kaikki käyvät nyt tekoälyn tarkistuksen läpi. Nämä tiedostot sisältävät usein pilvipalvelutunnistetietoja ja palvelutilin tokeneita.
Kun tekoälytyökalut kattavat yhä enemmän kehityssyklistä — tarkistus, dokumentaatio, debuggaus, optimointi — altistuspinta kasvaa niiden mukana.
Miten MCP-arkkitehtuuri estää vuodot
Claude Desktop- tai Cursor IDE -käyttäjille Model Context Protocol (MCP) -palvelinarkkitehtuuri asettaa tunnistetietosuodattimen kehittäjän ja tekoälymallin välille.
MCP-palvelin käsittelee kaiken tekstin, joka liikkuu istunnon läpi. Liitetty koodi, pinojäljitykset, konfiguraatiotiedostot, debug-konteksti — kaikki se kulkee anonymisointivaiheen läpi ennen kuin malli näkee sen.
Moottori löytää tunnistemalleja: API-avainmuodot, tietokantamerkkijonot, OAuth-tokenit, yksityisen avaimen otsikot ja mukautetut muodot, jotka tietoturvatiimisi määrittelee. Jokainen vastaavuus korvataan tokenilla ennen lähettämistä.
Miltä tämä näyttää käytännössä:
Kehittäjä liittää pinojäljityksen, jossa on tietokantayhteyden merkkijono. MCP-palvelin korvaa merkkijonon [DB_CONNECTION_1]:llä. Tekoäly näkee jäljityksen tokenin kanssa paikallaan. Se antaa debug-apua anonymisoidun version perusteella. Varsinainen tunnistemerkki ei koskaan poistunut sisäisestä verkosta.
Tämä pysäyttää saman vuotovektorin, joka täyttää GitHubin salaisuuksilla. Kanava on erilainen — tekoälytyökalut, ei git-sitoumukset — mutta korjaus toimii samalla tavalla: estä se ennen lähettämistä.
Katso tietoturvayleiskatsauksemme siitä, miten anonym.legal käsittelee tämän tekoälytyökalujen ja asiakirjatyönkulkujen läpi, sekä vaatimustenmukaisuuskeskus auditointihallintakeinoista.
Jälkikäteinen tunnistus on liian myöhäistä
Jotkin tiimit käyttävät sitoumuksen jälkeistä skannausta vuotaneiden salaisuuksien havaitsemiseen. GitGuardian ja truffleHog toimivat hyvin GitHub-kanavalle. Ne eivät kata tekoälytyökaluistuntoja.
Kun salaisuus saavuttaa tekoälyn palveluntarjoajan palvelimet, altistuminen on tapahtunut. Skannaus löytää sen jälkikäteen. MCP-kerroksen anonymisointi estää sen saavuttamasta mallia lainkaan.
39 miljoonaa GitHub-vuotoa dokumentoi yhden kanavan. Tekoälytyökalujen altistuminen on sama ongelma kanavassa, jossa on vähemmän seurantaa eikä auditointipolkua. Ennaltaehkäisy ennen lähettämistä kattaa molemmat.