CVE-2025-68664: Chuyện gì đã xảy ra

Cuối năm 2025, các nhà nghiên cứu bảo mật tiết lộ CVE-2025-68664, một lỗ hổng nghiêm trọng trong các hàm serialization của LangChain — cụ thể là dumps() và dumpd(). Điểm CVSS là 9,3 (Nghiêm trọng).

Lỗ hổng hoạt động như sau: các phương thức serialization của LangChain chuyển đổi đối tượng Python, bao gồm cả hàm callable, bằng cách bắt giữ ngữ cảnh closure của chúng. Khi kẻ tấn công kiểm soát phản hồi LLM trong một chain LangChain — thông qua prompt injection trong tài liệu được truy xuất, kết quả công cụ độc hại hoặc mục vector store bị đầu độc — họ có thể tạo ra phản hồi khiến dumps() serialize các biến môi trường mà tiến trình Python có thể truy cập.

Kết quả: API key, chuỗi kết nối cơ sở dữ liệu, JWT secret và thông tin xác thực AWS nhúng trong môi trường của chain LangChain có thể bị đánh cắp qua đầu ra của mô hình. Kẻ tấn công có thể inject văn bản vào tài liệu nguồn trong pipeline RAG của bạn và đọc các secret production.

Phiên bản bị ảnh hưởng: LangChain < 0.3.22 (Python). Bản vá đã phát hành trong 0.3.22, nhưng việc áp dụng chậm — dữ liệu tải xuống PyPI cho thấy sử dụng đáng kể các phiên bản dễ bị tấn công đến tháng 3 năm 2026.

PII rò rỉ trong pipeline RAG — Vấn đề tổng quát

CVE-2025-68664 là ví dụ kịch tính của một vấn đề âm thầm rộng hơn: PII rò rỉ qua pipeline RAG thường xuyên, qua các cơ chế không cần CVE và không cần kẻ tấn công.

Xét thiết lập RAG doanh nghiệp điển hình:

Thu thập: Bạn index tài liệu của công ty — ticket hỗ trợ, email khách hàng, hợp đồng pháp lý, hồ sơ HR — vào vector database (Pinecone, Weaviate, pgvector).
Truy xuất: Khi người dùng đặt câu hỏi, hệ thống truy xuất 5 đoạn tài liệu tương đồng nhất.
Tạo: Các đoạn đó được truyền làm ngữ cảnh cho LLM (GPT-4o, Claude, Gemini), tạo ra phản hồi.

Vấn đề là bước 2. Các đoạn được truy xuất chứa bất cứ thứ gì trong tài liệu gốc, bao gồm:

Tên khách hàng, địa chỉ email, số điện thoại
Giá trị hợp đồng, số tài khoản, mã số thuế
Dữ liệu lương nhân viên, nội dung đánh giá hiệu suất
Tên bệnh nhân trong ghi chú lâm sàng
Số ID quốc gia trong pipeline tài liệu di trú

PII đó được truyền nguyên văn cho LLM trong cửa sổ ngữ cảnh. Nó xuất hiện trong đầu ra của mô hình nếu truy vấn kích gợi nó. Nó được ghi log bởi nhà cung cấp LLM. Nó được lưu trong lịch sử cuộc trò chuyện LangChain. Nó chảy vào nền tảng quan sát của bạn.

Không cần lỗ hổng nào. Đây là hành vi dự định của hệ thống RAG — và nó tạo ra phơi lộ PII có hệ thống.

68 mẫu secret phổ biến

Công cụ bảo mật theo dõi 68 mẫu secret đã biết thường xuất hiện trong kho tài liệu doanh nghiệp:

AWS Access Key ID (AKIA...)
OpenAI API key (sk-...)
Anthropic API key (sk-ant-...)
Chuỗi kết nối cơ sở dữ liệu (postgresql://user:password@host/db)
JWT token (header mã hóa base64)
GitHub Personal Access Token
Stripe secret key (sk_live_...)
SendGrid API key
Twilio account SID và auth token
Khối PEM khóa riêng tư

Những mẫu này xuất hiện trong tài liệu doanh nghiệp thường xuyên hơn lập trình viên dự đoán. Một ticket hỗ trợ có thể chứa API key của khách hàng họ dán vào khi debug. Một hợp đồng có thể bao gồm thông tin xác thực cơ sở dữ liệu chia sẻ trong quá trình tích hợp kỹ thuật. Một file cấu hình bị index nhầm lộ ra toàn bộ kho secret.

Khi các tài liệu này được index vào vector database mà không làm sạch, mọi truy vấn truy xuất chúng đều truyền secret cho LLM — và có thể đến người dùng gửi truy vấn.

Giải pháp: Ẩn danh trước khi nhúng vector

Kiến trúc đúng cho pipeline RAG an toàn với PII sẽ ẩn danh tài liệu trước khi chúng được phân đoạn và nhúng vector. Đây không phải tùy chọn đối với hệ thống production xử lý dữ liệu khách hàng.

Dưới đây là cách triển khai bằng Python dùng anonym.legal API:

import requests
import os

ANONYM_API_KEY = os.environ["ANONYM_API_KEY"]
ANONYM_BASE_URL = "https://anonym.legal/api"

def anonymize_before_embedding(text: str) -> tuple[str, dict]:
    """Ẩn danh PII trong văn bản tài liệu trước khi nhúng vector."""
    response = requests.post(
        f"{ANONYM_BASE_URL}/presidio/anonymize",
        json={
            "text": text,
            "language": "en",
            "anonymizers": {
                "DEFAULT": {"type": "replace", "new_value": "[REDACTED]"},
                "PERSON": {"type": "mask", "masking_char": "*", "chars_to_mask": 4, "from_end": False},
                "EMAIL_ADDRESS": {"type": "replace", "new_value": "[EMAIL]"},
                "PHONE_NUMBER": {"type": "replace", "new_value": "[PHONE]"},
                "CRYPTO": {"type": "replace", "new_value": "[SECRET]"},
                "URL": {"type": "keep"},
            }
        },
        headers={"Authorization": f"Bearer {ANONYM_API_KEY}"}
    )
    result = response.json()
    return result["text"], result.get("items", [])


def build_rag_index(documents: list[str], vectorstore):
    """Xây dựng RAG index chỉ với tài liệu sạch."""
    anonymized_docs = []
    for doc in documents:
        clean_text, entities = anonymize_before_embedding(doc)
        anonymized_docs.append(clean_text)
        print(f"Đã loại bỏ {len(entities)} thực thể PII khỏi tài liệu")
    vectorstore.add_texts(anonymized_docs)

anonym.legal API hỗ trợ hơn 285 loại thực thể. Tên, email, số điện thoại, ID quốc gia, định danh tài chính, API key (qua loại thực thể CRYPTO), database URI và hơn 270 mẫu bổ sung đều được phát hiện và loại bỏ trước khi tài liệu nào đến vector store của bạn.

Xem hướng dẫn dành cho lập trình viên để biết các mẫu tích hợp LangChain và LlamaIndex.

Khắc phục CVE-2025-68664

Nếu bạn đang chạy LangChain < 0.3.22, cập nhật ngay:

pip install "langchain>=0.3.22" "langchain-core>=0.3.22"

Sau khi vá lỗi, kiểm toán cấu hình chain của bạn để tìm rủi ro prompt injection:

Xác thực các đoạn được truy xuất trước khi truyền cho LLM — loại bỏ nội dung khớp với mẫu injection đã biết như ignore previous instructions, system:, <INST>
Dùng anonymize_before_embedding trong pipeline thu thập — giảm bề mặt tấn công ngay cả khi injection xảy ra, vì dữ liệu nhạy cảm không có mặt trong các đoạn được truy xuất
Giới hạn quyền chain — chain LangChain không nên có quyền truy cập biến môi trường vượt quá mức cần thiết

Bức tranh toàn cảnh

Điểm CVSS là 9,3. Biện pháp khắc phục là một lệnh gọi API cho mỗi tài liệu. Phép tính đơn giản.

Sự kết hợp của CVE-2025-68664 và rủi ro PII trong ngữ cảnh RAG nói chung là trách nhiệm pháp lý thực sự. Giải pháp là kiến trúc đúng: ẩn danh tại thời điểm thu thập, không phải tại thời điểm truy vấn.

Kiểm tra trang tổng quan bảo mật và tuân thủ để biết yêu cầu RAG doanh nghiệp.

Nguồn

NVD CVE-2025-68664, CVSS 9,3, lỗ hổng serialization LangChain
Tư vấn bảo mật LangChain, langchain-ai/langchain GitHub, 2025
OWASP LLM Top 10: LLM01 Prompt Injection, LLM06 Sensitive Information Disclosure
Tài liệu loại thực thể anonym.legal — hơn 285 loại thực thể được hỗ trợ

Các Bài viết Liên quan

Kỹ Thuật

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

Bắt đầu Dùng Thử Miễn Phí Xem Tính Năng

LangChain CVE-2025-68664: PII rò rỉ qua pipeline RAG như thế nào

CVE-2025-68664: Chuyện gì đã xảy ra

PII rò rỉ trong pipeline RAG — Vấn đề tổng quát

68 mẫu secret phổ biến

Giải pháp: Ẩn danh trước khi nhúng vector

Khắc phục CVE-2025-68664

Bức tranh toàn cảnh

Nguồn

Các Bài viết Liên quan

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Sẵn sàng bảo vệ dữ liệu của bạn?

LangChain CVE-2025-68664: PII rò rỉ qua pipeline RAG như thế nào

CVE-2025-68664: Chuyện gì đã xảy ra

PII rò rỉ trong pipeline RAG — Vấn đề tổng quát

68 mẫu secret phổ biến

Giải pháp: Ẩn danh trước khi nhúng vector

Khắc phục CVE-2025-68664

Bức tranh toàn cảnh

Nguồn

Các Bài viết Liên quan

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Sẵn sàng bảo vệ dữ liệu của bạn?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow