39 miljoonaa tunnistetietoa vuoti yhden vuoden aikana

GitHubin Octoverse 2024 -raportti havaitsi 39 miljoonaa GitHubiin vuotanutta salaisuutta vuonna 2024. Se on 25 % vuosikasvua vuodesta 2023. Salaisuudet sisältävät API-avaimia, tietokantamerkkijonoja, todennustokeneita ja pilvipalvelutunnistetietoja.

Syy on tiedossa. Kehittäjät sitoutuvat koodiin, jossa on salaisuuksia sisällä. Salaisuudet tulevat debug-istunnoista. Tai ne on kovakoodattu ympäristömuuttujiin tallentamisen sijasta. 39 miljoonalla vuodolla tämä ei ole harvinaista. Se on rutiinia.

Tekoälytyökalut lisäävät toisen vuotokanavan

GitGuardianin vuoden 2025 tutkimus havaitsi, että 67 % kehittäjistä on vahingossa paljastanut salaisuuksia koodissa. Samat tavat, jotka luovat GitHub-vuotoja, luovat myös tekoälytyökaluvuotoja.

Kehittäjä liittää koodin Claudeen, ChatGPT:hen tai toiseen tekoälyavustajaan avuksi. Tässä koodissa on usein käytössä olevia tunnistetietoja. Tekoälymalli vastaanottaa salaisuuden. Se voi tallentaa sen keskusteluhistoriaan. Se lähettää sen palveluntarjoajan palvelimille. Kehittäjä menettää hallinnan — ilman varoitusta.

Kolme esimerkkiä:

Tietokannan debuggaus. Kehittäjä liittää pinojäljityksen. Jäljitys sisältää yhteysmerkkijonon. Tekoäly lukee myös salasanan.

Putkilinjan tarkistus. Kehittäjä jakaa dataputkilinjakomentosarjan. Komentosarjassa on AWS-käyttöavain ja salainen avain. Tekoäly vastaanottaa molemmat.

API-integraation tarkistus. Kehittäjä pyytää palautetta integraatiosta. Koodi sisältää käytössä olevan kumppanin API-avaimen. Avain poistuu kehittäjän verkosta.

Jokaisessa tapauksessa tavoite on laillinen apu. Tunnistetietovuoto on sivuvaikutus siitä, että tekoälylle annetaan riittävästi kontekstia. Tämä on sama malli kuin GitHub-vuodot — ei pahantahtoinen, vaan rutiininomainen.

CI/CD-putkilinjoilla on sama riski

CI/CD-putkilinjan salaisuusvuodot kasvoivat 34 % vuonna 2024. Rakennuskomentosarjat, käyttöönottokonfiguraatiot ja infrastruktuuri koodina -tiedostot kaikki käyvät nyt tekoälyn tarkistuksen läpi. Nämä tiedostot sisältävät usein pilvipalvelutunnistetietoja ja palvelutilin tokeneita.

Kun tekoälytyökalut kattavat yhä enemmän kehityssyklistä — tarkistus, dokumentaatio, debuggaus, optimointi — altistuspinta kasvaa niiden mukana.

Miten MCP-arkkitehtuuri estää vuodot

Claude Desktop- tai Cursor IDE -käyttäjille Model Context Protocol (MCP) -palvelinarkkitehtuuri asettaa tunnistetietosuodattimen kehittäjän ja tekoälymallin välille.

MCP-palvelin käsittelee kaiken tekstin, joka liikkuu istunnon läpi. Liitetty koodi, pinojäljitykset, konfiguraatiotiedostot, debug-konteksti — kaikki se kulkee anonymisointivaiheen läpi ennen kuin malli näkee sen.

Moottori löytää tunnistemalleja: API-avainmuodot, tietokantamerkkijonot, OAuth-tokenit, yksityisen avaimen otsikot ja mukautetut muodot, jotka tietoturvatiimisi määrittelee. Jokainen vastaavuus korvataan tokenilla ennen lähettämistä.

Miltä tämä näyttää käytännössä:

Kehittäjä liittää pinojäljityksen, jossa on tietokantayhteyden merkkijono. MCP-palvelin korvaa merkkijonon [DB_CONNECTION_1]:llä. Tekoäly näkee jäljityksen tokenin kanssa paikallaan. Se antaa debug-apua anonymisoidun version perusteella. Varsinainen tunnistemerkki ei koskaan poistunut sisäisestä verkosta.

Tämä pysäyttää saman vuotovektorin, joka täyttää GitHubin salaisuuksilla. Kanava on erilainen — tekoälytyökalut, ei git-sitoumukset — mutta korjaus toimii samalla tavalla: estä se ennen lähettämistä.

Katso tietoturvayleiskatsauksemme siitä, miten anonym.legal käsittelee tämän tekoälytyökalujen ja asiakirjatyönkulkujen läpi, sekä vaatimustenmukaisuuskeskus auditointihallintakeinoista.

Jälkikäteinen tunnistus on liian myöhäistä

Jotkin tiimit käyttävät sitoumuksen jälkeistä skannausta vuotaneiden salaisuuksien havaitsemiseen. GitGuardian ja truffleHog toimivat hyvin GitHub-kanavalle. Ne eivät kata tekoälytyökaluistuntoja.

Kun salaisuus saavuttaa tekoälyn palveluntarjoajan palvelimet, altistuminen on tapahtunut. Skannaus löytää sen jälkikäteen. MCP-kerroksen anonymisointi estää sen saavuttamasta mallia lainkaan.

39 miljoonaa GitHub-vuotoa dokumentoi yhden kanavan. Tekoälytyökalujen altistuminen on sama ongelma kanavassa, jossa on vähemmän seurantaa eikä auditointipolkua. Ennaltaehkäisy ennen lähettämistä kattaa molemmat.

Lähteet

Liittyvät Artikkelit

AI Turvallisuus

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

39 miljoonaa GitHub-vuotoa: tekoälykoodauksen riski

39 miljoonaa tunnistetietoa vuoti yhden vuoden aikana

Tekoälytyökalut lisäävät toisen vuotokanavan

CI/CD-putkilinjoilla on sama riski

Miten MCP-arkkitehtuuri estää vuodot

Jälkikäteinen tunnistus on liian myöhäistä

Lähteet

Liittyvät Artikkelit

Real-Time PII Prevention Saves $2.2M

GDPR Art. 32: AI Tools PII Monitoring

Real-Time PII Prevention for AI Data Leaks

Valmiina suojaamaan tietojasi?

39 miljoonaa GitHub-vuotoa: tekoälykoodauksen riski

39 miljoonaa tunnistetietoa vuoti yhden vuoden aikana

Tekoälytyökalut lisäävät toisen vuotokanavan

CI/CD-putkilinjoilla on sama riski

Miten MCP-arkkitehtuuri estää vuodot

Jälkikäteinen tunnistus on liian myöhäistä

Lähteet

Liittyvät Artikkelit

Real-Time PII Prevention Saves $2.2M

GDPR Art. 32: AI Tools PII Monitoring

Real-Time PII Prevention for AI Data Leaks

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow