anonym.legal
Terug naar BlogAI Beveiliging

39 Miljoen GitHub Geheimen Gelekt in 2024...

67% van de ontwikkelaars heeft per ongeluk geheimen in code blootgesteld (GitGuardian 2025).

March 29, 20268 min lezen
GitHub secret leaksdeveloper AI securitycredential exposureMCP Server protectionGitGuardian 2025

Het 39 Miljoen Inloggegevens Probleem

Het Octoverse 2024 rapport van GitHub documenteerde 39 miljoen geheimen die zijn gelekt op GitHub gedurende het jaar — een stijging van 25% jaar-op-jaar ten opzichte van 2023. Deze geheimen omvatten API-sleutels, databaseverbindingstrings, authenticatietokens, privécertificaten en inloggegevens van cloudproviders.

De bron van deze lekken is goed gedocumenteerd: ontwikkelaars committeren code die geheimen bevat — ofwel per ongeluk (foutopsporingsconfiguratie achtergelaten in een commit) of door inadequate geheimenbeheer (hardcoded inloggegevens in plaats van omgevingsvariabelen). De schaal van 39 miljoen weerspiegelt zowel de groei van GitHub als ontwikkelingsplatform als de aanhoudende onveilige ontwikkelingspraktijken op grote schaal.

Wat de Octoverse-gegevens niet volledig vastleggen, is een gerelateerde en groeiende lekvector: interacties met AI coderingassistenten. Wanneer ontwikkelaars code in Claude, ChatGPT of andere AI-coderingtools plakken voor foutopsporing, beoordeling of optimalisatie-assistentie, bevat de code die ze plakken vaak dezelfde inloggegevens die eindigen in GitHub geheimenlekken — databaseverbindingstrings, API-sleutels, interne service-URL's en authenticatietokens.

Hoe het Gebruik van AI door Ontwikkelaars Inloggegevens Blootstelt

Onderzoek van GitGuardian uit 2025 heeft aangetoond dat 67% van de ontwikkelaars per ongeluk geheimen in code heeft blootgesteld. De gedragingen die GitHub geheimenlekken produceren, zijn dezelfde gedragingen die inloggegevensblootstelling door AI-tools veroorzaken — maar de AI-toolvector is minder zichtbaar en moeilijker te detecteren achteraf.

Een ontwikkelaar die een productieverbindingprobleem aan het debuggen is, plakt een stacktrace die de databaseverbindingstring bevat die in het foutbericht wordt gebruikt. Het AI-model verwerkt de verbindingstring, slaat deze mogelijk op in de gespreksgeschiedenis en verzendt deze naar de servers van de AI-provider. De inloggegevens zijn nu buiten de controle van de ontwikkelaar.

Een ontwikkelaar die hulp vraagt bij het optimaliseren van een datastroom plakt de pipelinecode, inclusief de S3-bucketnaam, AWS-toegangssleutel en geheime sleutel die voor authenticatie worden gebruikt. Het AI-model ontvangt deze inloggegevens als onderdeel van legitieme coderingassistentie.

Een ontwikkelaar die om codebeoordeling vraagt, plakt een API-integratie-implementatie die de partner-API-sleutel bevat. Het beoordelingsverzoek bevat een live productie-inloggegeven.

In elk geval is de intentie van de ontwikkelaar legitiem — ze hebben hulp nodig bij een technisch probleem. De blootstelling van inloggegevens is een incidenteel gevolg van het opnemen van foutopsporingscontext. Het patroon weerspiegelt precies hoe geheimen eindigen in GitHub: niet kwaadaardige openbaarmaking, maar incidentele opname.

De CI/CD Pipeline Lek Trend

Blootstellingen van PII en geheimen van ontwikkelaars in CI/CD-pijplijnen zijn met 34% toegenomen in 2024, volgens trackinggegevens. De bron is vergelijkbaar: build-scripts, implementatieconfiguraties en infrastructuur-als-code-bestanden worden steeds vaker beoordeeld met AI-tools. Deze bestanden bevatten routinematig verwijzingen naar omgevingsvariabelen, inloggegevens van cloudproviders en serviceaccounttokens.

Naarmate de adoptie van AI-tools in ontwikkelingsworkflows groeit — ontwikkelaars gebruiken AI voor codebeoordeling, documentatie, foutopsporing en optimalisatie gedurende de volledige ontwikkelingscyclus — groeit het oppervlak voor incidentele blootstelling van inloggegevens evenredig.

De MCP Architectuur Oplossing

Voor ontwikkelingsteams die Claude Desktop of Cursor IDE als hun primaire AI-coderingtools gebruiken, biedt de Model Context Protocol (MCP) architectuur een transparante laag voor het onderscheppen van inloggegevens.

De MCP-server bevindt zich tussen de AI-client van de ontwikkelaar en de AI-model-API. Alle tekst die via het MCP-protocol wordt verzonden — inclusief geplakte code, stacktraces, configuratiebestanden en foutopsporingscontext — gaat door een anonimiseringsengine voordat deze het AI-model bereikt.

De anonimiseringsengine detecteert patronen die lijken op inloggegevens: API-sleutelformaten, structuren van databaseverbindingstrings, OAuth-tokenformaten, privé-sleutelheaders en aangepaste eigendomsformaten voor inloggegevens die door het beveiligingsteam zijn geconfigureerd. Deze patronen worden vervangen door gestructureerde tokens voordat ze worden verzonden.

Voor de ontwikkelaar die een productieverbindingprobleem aan het debuggen is: de stacktrace met de databaseverbindingstring komt aan bij de MCP-server. De verbindingstring wordt vervangen door een token ([DB_CONNECTION_1]). Het AI-model ontvangt de stacktrace met de inloggegevens vervangen. De foutopsporingsassistentie wordt geboden op basis van de geanonimiseerde versie. De ontwikkelaar ontvangt een antwoord dat hetzelfde token gebruikt — voldoende om het technische probleem te begrijpen. De werkelijke inloggegevens hebben het bedrijfsnetwerk nooit verlaten.

De 39 miljoen GitHub geheimenlekken weerspiegelen de gevolgen van inadequate controles op een bekende lekvector. Blootstelling van inloggegevens door AI-coderingassistenten is dezelfde lekvector in een minder gecontroleerd kanaal. De technische controle die beide aanpakt, is het onderscheppen van inloggegevens voordat ze worden verzonden.

Bronnen:

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.