By · Last updated 2026-03-29

Quay lại BlogBảo Mật AI

39 Triệu Rò Rỉ GitHub: Rủi Ro Từ AI Lập Trình

67% nhà phát triển đã vô tình lộ bí mật trong mã nguồn (GitGuardian 2025). 39 triệu bí mật bị rò rỉ trên GitHub năm 2024, tăng 25% so với năm trước.

March 29, 20268 phút đọc
GitHub secret leaksdeveloper AI securitycredential exposureMCP Server protectionGitGuardian 2025

39 Triệu Thông Tin Đăng Nhập Bị Rò Rỉ Trong Một Năm

Báo cáo Octoverse 2024 của GitHub phát hiện 39 triệu bí mật bị rò rỉ trên GitHub năm 2024. Đó là tăng 25% so với năm trước từ năm 2023. Các bí mật bao gồm API key, chuỗi kết nối cơ sở dữ liệu, auth token và thông tin đăng nhập cloud.

Nguyên nhân đã biết. Nhà phát triển commit mã với bí mật bên trong. Bí mật đến từ các phiên debug. Hoặc chúng được hardcode thay vì lưu trong biến môi trường. Ở mức 39 triệu rò rỉ, đây không phải điều hiếm gặp. Đây là thói quen thường xuyên.

Công Cụ AI Thêm Kênh Rò Rỉ Thứ Hai

Nghiên cứu GitGuardian 2025 phát hiện 67% nhà phát triển đã vô tình lộ bí mật trong mã nguồn. Thói quen tương tự tạo ra rò rỉ GitHub cũng tạo ra rò rỉ công cụ AI.

Nhà phát triển dán mã vào Claude, ChatGPT hay trợ lý AI khác để được giúp đỡ. Mã đó thường có thông tin đăng nhập thực trong đó. Mô hình AI nhận được bí mật. Nó có thể lưu trong lịch sử cuộc hội thoại. Nó gửi đến máy chủ của nhà cung cấp. Nhà phát triển mất kiểm soát — không có cảnh báo.

Ba ví dụ:

Debug cơ sở dữ liệu. Nhà phát triển dán stack trace. Trace bao gồm chuỗi kết nối. AI đọc cả mật khẩu.

Xem xét pipeline. Nhà phát triển chia sẻ script pipeline dữ liệu. Script có AWS access key và secret key. AI nhận cả hai.

Xem xét tích hợp API. Nhà phát triển yêu cầu phản hồi về một tích hợp. Mã bao gồm API key của đối tác thực. Key rời khỏi mạng của nhà phát triển.

Trong mỗi trường hợp, mục tiêu là sự giúp đỡ hợp pháp. Rò rỉ thông tin đăng nhập là tác dụng phụ của việc cung cấp cho AI đủ ngữ cảnh. Đây là mẫu tương tự như rò rỉ GitHub — không cố ý, chỉ là thói quen.

Pipeline CI/CD Đối Mặt Với Rủi Ro Tương Tự

Rò rỉ bí mật pipeline CI/CD tăng 34% năm 2024. Build script, cấu hình triển khai và tệp infrastructure-as-code đều đi qua xem xét AI bây giờ. Những tệp này thường có thông tin đăng nhập cloud và token tài khoản dịch vụ.

Khi các công cụ AI bao gồm nhiều hơn trong chu kỳ phát triển — xem xét, tài liệu, debug, tối ưu hóa — bề mặt phơi nhiễm tăng cùng với chúng.

Kiến Trúc MCP Chặn Rò Rỉ Thế Nào

Với các nhóm dùng Claude Desktop hay Cursor IDE, kiến trúc server Model Context Protocol (MCP) đặt bộ lọc thông tin đăng nhập trong đường đi giữa nhà phát triển và mô hình AI.

Server MCP xử lý mọi văn bản di chuyển qua phiên. Mã dán, stack trace, tệp cấu hình, ngữ cảnh debug — tất cả đều đi qua bước ẩn danh trước khi mô hình thấy.

Engine tìm các mẫu thông tin đăng nhập: định dạng API key, chuỗi cơ sở dữ liệu, OAuth token, header khóa riêng và các định dạng tùy chỉnh nhóm bảo mật định nghĩa. Mỗi kết quả khớp được thay thế bằng token trước khi truyền.

Thực tế trông như thế này:

Nhà phát triển dán stack trace có chuỗi kết nối cơ sở dữ liệu. Server MCP thay thế chuỗi bằng [DB_CONNECTION_1]. AI thấy trace với token thay vào đó. Nó cung cấp trợ giúp debug dựa trên phiên bản ẩn danh. Thông tin đăng nhập thực tế không bao giờ rời khỏi mạng nội bộ.

Điều này ngăn vector rò rỉ tương tự làm đầy GitHub với bí mật. Kênh khác — công cụ AI, không phải git commit — nhưng giải pháp hoạt động theo cùng cách: chặn trước khi truyền.

Xem tổng quan bảo mật để biết cách anonym.legal xử lý điều này trên các công cụ AI và quy trình tài liệu, và trung tâm tuân thủ để biết các kiểm soát kiểm toán.

Phát Hiện Sau Thực Tế Đã Quá Muộn

Một số nhóm dùng quét sau commit để bắt bí mật bị rò rỉ. GitGuardian và truffleHog hoạt động tốt cho kênh GitHub. Chúng không bao gồm các phiên công cụ AI.

Khi bí mật đến máy chủ của nhà cung cấp AI, việc lộ đã xong. Quét tìm thấy sau đó. Ẩn danh tại lớp MCP ngăn nó đến mô hình.

39 triệu rò rỉ GitHub ghi lại một kênh. Lộ công cụ AI là cùng một vấn đề trong một kênh có ít giám sát hơn và không có dấu vết kiểm toán. Phòng ngừa trước khi truyền bao gồm cả hai.

Nguồn Tham Khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.