By · Last updated 2026-06-05

Quay lại BlogKỹ Thuật

GDPR Trong Nhật Ký Ứng Dụng: Tuân Thủ PII JSON

Nhật ký ứng dụng chứa địa chỉ email khách hàng, IP và số tài khoản mà Điều 5(1)(e) GDPR yêu cầu phải được quản lý.

June 5, 20266 phút đọc
API logsGDPR complianceJSON anonymizationobservabilitystorage limitation

Rủi Ro GDPR Im Lặng Trong Ngăn Xếp Nhật Ký Của Bạn

Cập nhật cho năm 2026

Hầu hết các nhóm kiểm tra cơ sở dữ liệu của họ để tìm thông tin cá nhân. Ít nhóm hơn làm điều tương tự với hệ thống nhật ký của họ.

Điều 5(1)(e) GDPR giới hạn thời gian bạn có thể lưu trữ thông tin cá nhân. Đối với cơ sở dữ liệu, các nhóm đặt chính sách và chạy các công việc xóa. Đối với tệp nhật ký, quy tắc đơn giản hơn: giữ mọi thứ trong 90 ngày để gỡ lỗi.

Vấn đề? Những hồ sơ đó chứa thông tin cá nhân. Các mục yêu cầu chứa email người dùng. Các bắt giữ lỗi chứa các giá trị đầu vào thô. Các mục truy cập chứa địa chỉ IP. Mỗi điều này được tính là thông tin cá nhân theo GDPR. Nhóm của bạn cần cơ sở pháp lý và kế hoạch lưu giữ cho mỗi loại.

Những Gì Kết Thúc Trong Tệp Nhật Ký Của Bạn

Ghi nhật ký ứng dụng web tiêu chuẩn kéo vào một loạt PII rộng.

Hồ sơ truy cập (nginx/Apache):

  • Địa chỉ IP — thông tin cá nhân theo hướng dẫn EDPB
  • Chuỗi user-agent — có thể cho phép lấy dấu vân tay thiết bị
  • Token phiên — nếu được ghi vào đầu ra

Hồ sơ ứng dụng (JSON có cấu trúc):

  • ID người dùng và địa chỉ email
  • Lỗi đầu vào — thường bao gồm giá trị không hợp lệ thô, có thể là thông tin người dùng thực
  • Sự kiện kinh doanh — ID đơn hàng được liên kết với tài khoản khách hàng
  • Truy vấn tìm kiếm — có thể chứa tên hoặc địa chỉ

Hồ sơ cổng API:

  • Tiêu đề xác thực — được bắt một phần trong một số cài đặt
  • Tham số truy vấn — có thể mang ID người dùng, tên hoặc email
  • Nội dung yêu cầu và phản hồi — hiện diện trong các cài đặt cấp gỡ lỗi

Mục kiểm toán cơ sở dữ liệu:

  • Truy vấn SQL với mệnh đề WHERE như email = 'user@example.com'
  • Giá trị cá nhân theo nghĩa đen trong tham số truy vấn

Đây không phải cố ý. Đó là tác dụng phụ của việc ghi nhật ký được xây dựng cho gỡ lỗi, không phải GDPR.

Hướng Dẫn EDPB Về Địa Chỉ IP

Hội Đồng Bảo Vệ Dữ Liệu Châu Âu nói rằng địa chỉ IP là thông tin cá nhân. Các ISP có thể liên kết chúng với người đăng ký. Trong một tổ chức, chúng có thể xác định người dùng cụ thể.

Tác động trực tiếp. Hồ sơ truy cập với địa chỉ IP là hồ sơ cá nhân. Giữ đầu ra nginx trong 12 tháng có nghĩa là giữ thông tin cá nhân trong 12 tháng. Điều đó cần cơ sở pháp lý theo Điều 6. Nó cũng cần thời gian lưu giữ khớp với mục đích đã nêu của bạn.

Hầu hết các nhóm bỏ qua bước này. "Chúng tôi giữ các mục trong 90 ngày vì bảo mật nói vậy" là quy tắc ngón tay cái. Nó không phải là đánh giá Điều 5(1)(e) GDPR. Xem Tổng quan Tuân thủ Pháp lý của chúng tôi để biết cách điều này phù hợp với chương trình rộng hơn.

Cách Đạt Tuân Thủ

Con đường thực tế cho hầu hết các nhóm không phải là cắt giảm cửa sổ lưu giữ. Lý do hoạt động và bảo mật cho cửa sổ dài hơn là có thực. Con đường tốt hơn là che giấu hồ sơ trước khi lưu trữ lâu dài.

Mô hình phân tầng hoạt động tốt.

0–7 ngày: Hồ sơ thô đầy đủ cho gỡ lỗi hoạt động. Bảy ngày đủ ngắn cho hầu hết các nhóm.

7–90 ngày: Hồ sơ được che giấu cho phân tích xu hướng và xem xét bảo mật. Địa chỉ IP được hoán đổi. Email người dùng trở thành token ổn định. Số tài khoản bị che giấu. Các trường chính — dấu thời gian, mã lỗi, độ trễ, điểm cuối — được giữ nguyên.

90+ ngày (nếu cần): Chỉ đầu ra tổng hợp. Số lượng sự kiện, tỷ lệ lỗi, phạm vi độ trễ. Không có hồ sơ cấp người dùng nào còn lại.

Thông tin cá nhân dừng lại ở bảy ngày. Đầu ra tổng hợp có thể tiếp tục mà không phơi bày bất kỳ ai. Xem Bảo mật & Tuân thủ để biết thêm chi tiết.

Giữ Cấu Trúc Nguyên Vẹn Cho Giám Sát

Che giấu tốt giữ cấu trúc JSON nguyên vẹn. Nó chỉ hoán đổi nội dung. Điều này giữ đầu ra hữu ích cho gỡ lỗi và cảnh báo.

Giữ nguyên:

  • Khóa JSON và lồng nhau
  • Dấu thời gian và thứ tự thời gian
  • Loại lỗi và mã trạng thái HTTP
  • Phương thức HTTP, đường dẫn và giá trị độ trễ
  • Loại sự kiện kinh doanh

Hoán đổi:

  • Địa chỉ email → token ổn định cho mỗi bản gốc (ví dụ: user1@example.com)
  • Địa chỉ IP → phạm vi RFC 5737 (192.0.2.x)
  • Số tài khoản → ACCT_XXXXX
  • Số điện thoại → +XX XXX XXX XXXX
  • Tên trong văn bản lỗi → [PERSON]

Các token ổn định giữ các dấu vết hữu ích. Một dấu vết cho user1@example.com trên 40 mục hoạt động giống như bản gốc. Các số liệu tổng hợp — tỷ lệ lỗi, độ trễ, thông lượng — không cần thông tin cá nhân nào cả. Xem Bảng Thuật Ngữ để biết các thuật ngữ giả danh hóaẩn danh hóa.

Ba Cách Tích Hợp Điều Này

Ba mẫu bao gồm hầu hết các nhóm kỹ thuật.

Tùy chọn 1 — Che giấu pipeline: Fluentd hoặc Logstash chặn mỗi dòng trước khi gửi tiếp. Một bước che giấu chạy nội tuyến. Elastic hoặc Datadog chỉ nhận hồ sơ sạch. Không cần thay đổi mã ứng dụng.

Tùy chọn 2 — Lô hàng đêm: Hồ sơ thô hạ cánh trong bộ nhớ cục bộ. Một công việc hàng đêm che giấu đầu ra của ngày trước và xóa phiên bản thô. Hồ sơ được che giấu đến bộ nhớ lâu dài. Đầu ra thô được giữ chỉ bảy ngày.

Tùy chọn 3 — Che giấu trước khi chia sẻ: Hồ sơ thô ở nội bộ với kiểm soát truy cập nghiêm ngặt. Trước khi chia sẻ với người kiểm tra thâm nhập hoặc nhà thầu bên ngoài, chạy một lượt che giấu. Các bên bên ngoài luôn nhận phiên bản sạch.

Đối với tài liệu GDPR, che giấu là "biện pháp kỹ thuật" theo Điều 32. Ghi lại công cụ, cài đặt của nó và chính sách lưu giữ của bạn trong Hồ Sơ Hoạt Động Xử Lý (RoPA) theo Điều 30. Xem Câu Hỏi Thường Gặp của chúng tôi để biết các câu hỏi RoPA phổ biến.

Muốn một ví dụ thực tế? Kiểm tra nghiên cứu trường hợp để biết chi tiết triển khai cụ thể. Bạn cũng có thể xem xét giá cả của chúng tôi để xem kế hoạch nào bao gồm các pipeline che giấu tích hợp.

Nguồn Tham Khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.