La popularitat dels assistents de codificació IA — ChatGPT, GitHub Copilot, Amazon CodeWhisperer, JetBrains AI Assistant i Claude — ha creat un vector de fugida de dades inesperat a les organitzacions globals. Els desenvolupadors colen segells de codi que contenen secrets de producció, credencials, variables d'entorn, dades de prova, i IDs de recursos, esperant que l'assistència IA millorarà la qualitat del codi o corregirà els errors. El secret es transmet a servidors de tercers, es processa a través de tuberistes d'entrenament de models, i es pot divulgar més tard en suggeriments a altres desenvolupadors que treballen en projectes sense relació.
Per què els desenvolupadors fugen secrets de codi
Model mental dels desenvolupadors: L'assistent IA és una "joguina de desenvolupador" local, no una transmissió a Internet. La majoria dels desenvolupadors no llegeixen els T&C sobre seguretat de dades de GitHub/OpenAI. Tracten el codi-secret com a "suficientment obscur per ser inesplotable" — o simplement no hi pensen.
Escalada del codi pegat: Els desenvolupadors copien "suficient context" perquè l'IA enengui la tasca — una variable d'entorn, un fragment de connexió BD, una clau de proves. Els servidors de tercers reben:
- Claus API de AWS/Stripe/Twilio
- Variables d'entorn (DATABASE_URL, MAILGUN_KEY, etc.)
- Dades de prova amb números de tarjeta de crèdit, SSNs, números de telèfon
- URLs de servidor de producció
- Credencials hardcodificades dins cadenes constants
Cadena de custodia de dades: Cada suggeriment de codi que fas passes a través de la xarxa de tercers, es registra als servidors d'OpenAI/GitHub/Anthropic, entra als registres d'API, i es processa pel ML training pipeline. Els registres es mantenen típicament durant 30 dies, però els extractes poden quedar per a l'entrenament de models indefinidament.