CVE-2025-68664: що сталося

Наприкінці 2025 року дослідники безпеки розкрили CVE-2025-68664 — критичну вразливість у функціях серіалізації LangChain, зокрема dumps() та dumpd(). Оцінка CVSS становить 9,3 (Критична).

Вразливість працює наступним чином: методи серіалізації LangChain серіалізують об'єкти Python, включаючи функції, що викликаються, захоплюючи контекст їх замикання. Коли зловмисник контролює відповідь LLM у ланцюжку LangChain — через ін'єкцію підказки у вилучений документ, зловмисний результат інструменту або отруєний запис векторного сховища — він може створювати відповіді, що змушують dumps() серіалізувати змінні середовища, доступні процесу Python.

Результат: ключі API, рядки підключення до бази даних, JWT-секрети та облікові дані AWS, вбудовані в середовище ланцюжка LangChain, можуть бути вилучені через вивід моделі. Зловмисник, який може впровадити текст у вихідні документи вашого RAG-конвеєра, може за певних конфігурацій ланцюжка читати ваші продакшн-секрети.

Зачеплені версії: LangChain < 0.3.22 (Python). Виправлення випущено у 0.3.22, але прийняття повільне — дані завантажень pypi показують значне використання вразливих версій до березня 2026 року.

Як PII витікає з RAG-конвеєрів — загальна проблема

CVE-2025-68664 є драматичним прикладом ширшої, тихішої проблеми: PII регулярно витікає через RAG-конвеєри, через механізми, що не вимагають жодного CVE та жодного зловмисника.

Розглянемо типове корпоративне налаштування RAG:

Індексування: Ви індексуєте документи компанії — заявки підтримки, листи клієнтів, юридичні договори, HR-записи — у векторну базу даних (Pinecone, Weaviate, pgvector).
Вилучення: Коли користувач ставить запитання, система вилучає 5 найбільш семантично схожих фрагментів документів.
Генерація: Ці фрагменти передаються як контекст до LLM (GPT-4o, Claude, Gemini), який генерує відповідь.

Проблема на кроці 2. Вилучені фрагменти містять все, що було в оригінальних документах, включаючи:

Імена клієнтів, адреси електронної пошти, номери телефонів
Вартості договорів, номери рахунків, податкові ідентифікатори
Дані про зарплату співробітників, вміст оцінок продуктивності
Імена пацієнтів у клінічних нотатках (для медичних RAG)
Номери національних ідентифікаторів у конвеєрах обробки документів щодо імміграції

Цей PII передається дослівно до LLM у вікні контексту. Він з'являється у виводі моделі, якщо запит його викликає. Він логується постачальником LLM. Він зберігається в вашій історії розмов LangChain. Він надходить у вашу платформу спостережуваності.

Жодне з цього не вимагає вразливості. Це є передбачуваною поведінкою RAG-системи — і вона створює систематичну відкритість PII.

68 шаблонів секретів

Інструменти безпеки, що моніторять RAG-конвеєри, відстежують 68 відомих шаблонів секретів, що зазвичай з'являються в корпоративних сховищах документів:

Ідентифікатори ключів доступу AWS (AKIA...)
Ключі API OpenAI (sk-...)
Ключі API Anthropic (sk-ant-...)
URI підключення до бази даних (postgresql://user:password@host/db)
JWT-токени (заголовки з кодуванням base64)
Персональні токени доступу GitHub
Секретні ключі Stripe (sk_live_...)
Ключі API SendGrid
SID облікових записів Twilio та токени автентифікації
Блоки приватного ключа PEM

Ці шаблони з'являються в корпоративних документах частіше, ніж очікують розробники. Заявка підтримки може містити ключ API клієнта, вставлений під час відлагодження. Договір може включати облікові дані бази даних, надані під час технічної інтеграції. Конфігураційний файл, проіндексований випадково, розкриває ціле сховище секретів.

Коли ці документи індексуються у векторну базу даних без санітизації, кожен запит, що їх вилучає, передає секрети до LLM — і потенційно до користувача, який надіслав запит.

Виправлення: анонімізуйте перед вбудовуванням

Правильна архітектура для RAG-конвеєра, безпечного щодо PII, анонімізує документи перед їх фрагментацією та вбудовуванням. Це не є необов'язковим для продакшн-систем, що обробляють дані клієнтів.

Ось реалізація Python з використанням API anonym.legal:

import requests
import os

ANONYM_API_KEY = os.environ["ANONYM_API_KEY"]
ANONYM_BASE_URL = "https://anonym.legal/api"

def anonymize_before_embedding(text: str) -> tuple[str, dict]:
    """
    Анонімізуйте PII у тексті документа перед вбудовуванням.
    Повертає (anonymized_text, entity_map) для необов'язкової деанонімізації.
    """
    response = requests.post(
        f"{ANONYM_BASE_URL}/presidio/anonymize",
        json={
            "text": text,
            "language": "en",
            "anonymizers": {
                "DEFAULT": {"type": "replace", "new_value": "[REDACTED]"},
                "PERSON": {"type": "mask", "masking_char": "*", "chars_to_mask": 4, "from_end": False},
                "EMAIL_ADDRESS": {"type": "replace", "new_value": "[EMAIL]"},
                "PHONE_NUMBER": {"type": "replace", "new_value": "[PHONE]"},
                "CRYPTO": {"type": "replace", "new_value": "[SECRET]"},
                "URL": {"type": "keep"},  # Зберігати URL — потрібні для цитат
            }
        },
        headers={"Authorization": f"Bearer {ANONYM_API_KEY}"}
    )
    result = response.json()
    return result["text"], result.get("items", [])


def build_rag_index(documents: list[str], vectorstore):
    """
    Побудуйте RAG-індекс з анонімізованим PII перед вбудовуванням.
    """
    anonymized_docs = []
    for doc in documents:
        clean_text, entities = anonymize_before_embedding(doc)
        anonymized_docs.append(clean_text)
        # Необов'язково логувати кількість сутностей для аудиторського сліду
        print(f"Видалено {len(entities)} сутностей PII з документа")

    # Тепер вбудовуйте чисті документи — PII не досягає векторного сховища
    vectorstore.add_texts(anonymized_docs)

API anonym.legal підтримує понад 285 типів сутностей. Для корпоративних конвеєрів документів це означає, що імена, електронні адреси, номери телефонів, національні ідентифікатори, фінансові ідентифікатори, ключі API (через тип сутності CRYPTO), URI баз даних та понад 270 додаткових шаблонів виявляються та видаляються до того, як будь-який документ досягне вашого векторного сховища.

Виправлення CVE-2025-68664 конкретно

Якщо ви використовуєте LangChain < 0.3.22, оновіться негайно:

pip install "langchain>=0.3.22" "langchain-core>=0.3.22"

Після встановлення виправлення перевірте конфігурації ланцюжка на ризик ін'єкції підказок:

Перевіряйте вилучені фрагменти перед передачею до LLM — видаляйте будь-який вміст, що відповідає відомим шаблонам ін'єкцій (ignore previous instructions, system:, <INST>)
Використовуйте anonymize_before_embedding у вашому конвеєрі індексування — зменшує поверхню атаки, навіть якщо ін'єкція відбувається, тому що чутливих даних немає у вилучених фрагментах
Обмежте дозволи ланцюжка — ланцюжки LangChain не повинні мати доступу до змінних середовища поза тим, що їм потрібно. Використовуйте виділений сервісний обліковий запис з мінімальними дозволами.

CTA: захистіть свій конвеєр

Для розробників, що будують продакшн RAG-системи, поєднання CVE-2025-68664 та загального ризику PII-в-контексті є значною відповідальністю. Виправлення архітектурне: анонімізуйте під час індексування, а не під час запиту.

Документація API anonym.legal — REST API для анонімізації документів із понад 285 типами сутностей
Варіанти використання для розробників — шаблони інтеграції для LangChain, LlamaIndex та власних RAG-систем

Оцінка CVSS становить 9,3. Виправлення — один виклик API на документ. Математика очевидна.

Джерела:

NVD CVE-2025-68664, CVSS 9,3, вразливість серіалізації LangChain
Рекомендація безпеки LangChain, langchain-ai/langchain GitHub, 2025
OWASP LLM Top 10: LLM01 Ін'єкція підказки, LLM06 Розкриття чутливої інформації
Документація типів сутностей anonym.legal — понад 285 підтримуваних типів сутностей

LangChain CVE-2025-68664: як PII витікає через ваш RAG-конвеєр

CVE-2025-68664: що сталося

Як PII витікає з RAG-конвеєрів — загальна проблема

68 шаблонів секретів

Виправлення: анонімізуйте перед вбудовуванням

Виправлення CVE-2025-68664 конкретно

CTA: захистіть свій конвеєр

Схожі статті

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Готові захистити свої дані?

LangChain CVE-2025-68664: як PII витікає через ваш RAG-конвеєр

CVE-2025-68664: що сталося

Як PII витікає з RAG-конвеєрів — загальна проблема

68 шаблонів секретів

Виправлення: анонімізуйте перед вбудовуванням

Виправлення CVE-2025-68664 конкретно

CTA: захистіть свій конвеєр

Схожі статті

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow