Arenduskeskkonna PII probleem
Softvarearendusmeeskonnad on kõige sagedamini tahtmatud PII avalikustajad — mitte süsteemirikkumiste kaudu, vaid tarkvara arendamise igapäevaste töövoogude kaudu.
Probleem: tootmissüsteemide isikuandmed satuvad regulaarselt arenduskeskkondadesse ja sealt edasi tehisintellekti programmeerimisabistantidele.
GitHubi 2025. aasta turvalisusuuringu kohaselt lekiti 2024. aastal avalike hoidlates 39 miljonit saladust — API võtmeid, mandaate ja tundlikke andmeid. Märkimisväärsed osad tulid testi andmetest ja silumise artefaktidest: arendajad, kes kopeerisid tootmisandmeid testi armaturesse, näidisandmete failidesse või silumise logisse ja seejärel töötasid need versioonihaldusesse.
Tehisintellekti programmeerimisabistandid suurendavad seda riski. Kui arendaja jagab ühikutesti faili, mis sisaldab päris kliendi e-posti aadresse, GitHub Copilotiga, Cursoriga või Claudega koodi läbivaatuse abi saamiseks, saavad tehisintellekti müüja serverid need e-posti aadressid. Andmesubjekt, kelle e-posti aadress kopeeriti testi armaturesse, ei tea, et nende e-posti aadress on nüüd tehisintellekti ettevõtte treenimisparadigmasse.
Kuidas tootmise PII satub arenduskeskkondadesse
Päringute rajad on prognoositavad:
Testi armaturiandmed: Ühiku- ja integratsioonitestid vajavad realistlikke testiga andmeid. Kõige kiirem viis realistlike andmete saamiseks on kopeerida paar kirjet tootmisest. Arendaja kavatseb asendada sentheettiliste andmetega "hiljem." Hiljem harva tuleb. Tootmise e-posti aadressid, nimed ja konto ID-d jäävad testi armaturidesse tosinates töödesse.
Logipõhine silumise andmed: Arendajad kopeerivad tootmisest logifailide katkeid — sisselogimiste, kande detailide, vigade salkidega — kohalik silumiseks. Kogu logifail laaditakse GitHub Copilotisse kontekstina. Iga logifail, mis sisaldab tootmise andmeid, on eksposuur.