Rủi Ro GDPR Im Lặng Trong Ngăn Xếp Nhật Ký Của Bạn
Cập nhật cho năm 2026
Hầu hết các nhóm kiểm tra cơ sở dữ liệu của họ để tìm thông tin cá nhân. Ít nhóm hơn làm điều tương tự với hệ thống nhật ký của họ.
Điều 5(1)(e) GDPR giới hạn thời gian bạn có thể lưu trữ thông tin cá nhân. Đối với cơ sở dữ liệu, các nhóm đặt chính sách và chạy các công việc xóa. Đối với tệp nhật ký, quy tắc đơn giản hơn: giữ mọi thứ trong 90 ngày để gỡ lỗi.
Vấn đề? Những hồ sơ đó chứa thông tin cá nhân. Các mục yêu cầu chứa email người dùng. Các bắt giữ lỗi chứa các giá trị đầu vào thô. Các mục truy cập chứa địa chỉ IP. Mỗi điều này được tính là thông tin cá nhân theo GDPR. Nhóm của bạn cần cơ sở pháp lý và kế hoạch lưu giữ cho mỗi loại.
Những Gì Kết Thúc Trong Tệp Nhật Ký Của Bạn
Ghi nhật ký ứng dụng web tiêu chuẩn kéo vào một loạt PII rộng.
Hồ sơ truy cập (nginx/Apache):
- Địa chỉ IP — thông tin cá nhân theo hướng dẫn EDPB
- Chuỗi user-agent — có thể cho phép lấy dấu vân tay thiết bị
- Token phiên — nếu được ghi vào đầu ra
Hồ sơ ứng dụng (JSON có cấu trúc):
- ID người dùng và địa chỉ email
- Lỗi đầu vào — thường bao gồm giá trị không hợp lệ thô, có thể là thông tin người dùng thực
- Sự kiện kinh doanh — ID đơn hàng được liên kết với tài khoản khách hàng
- Truy vấn tìm kiếm — có thể chứa tên hoặc địa chỉ
Hồ sơ cổng API:
- Tiêu đề xác thực — được bắt một phần trong một số cài đặt
- Tham số truy vấn — có thể mang ID người dùng, tên hoặc email
- Nội dung yêu cầu và phản hồi — hiện diện trong các cài đặt cấp gỡ lỗi
Mục kiểm toán cơ sở dữ liệu:
- Truy vấn SQL với mệnh đề WHERE như
email = 'user@example.com' - Giá trị cá nhân theo nghĩa đen trong tham số truy vấn
Đây không phải cố ý. Đó là tác dụng phụ của việc ghi nhật ký được xây dựng cho gỡ lỗi, không phải GDPR.
Hướng Dẫn EDPB Về Địa Chỉ IP
Hội Đồng Bảo Vệ Dữ Liệu Châu Âu nói rằng địa chỉ IP là thông tin cá nhân. Các ISP có thể liên kết chúng với người đăng ký. Trong một tổ chức, chúng có thể xác định người dùng cụ thể.
Tác động trực tiếp. Hồ sơ truy cập với địa chỉ IP là hồ sơ cá nhân. Giữ đầu ra nginx trong 12 tháng có nghĩa là giữ thông tin cá nhân trong 12 tháng. Điều đó cần cơ sở pháp lý theo Điều 6. Nó cũng cần thời gian lưu giữ khớp với mục đích đã nêu của bạn.
Hầu hết các nhóm bỏ qua bước này. "Chúng tôi giữ các mục trong 90 ngày vì bảo mật nói vậy" là quy tắc ngón tay cái. Nó không phải là đánh giá Điều 5(1)(e) GDPR. Xem Tổng quan Tuân thủ Pháp lý của chúng tôi để biết cách điều này phù hợp với chương trình rộng hơn.
Cách Đạt Tuân Thủ
Con đường thực tế cho hầu hết các nhóm không phải là cắt giảm cửa sổ lưu giữ. Lý do hoạt động và bảo mật cho cửa sổ dài hơn là có thực. Con đường tốt hơn là che giấu hồ sơ trước khi lưu trữ lâu dài.
Mô hình phân tầng hoạt động tốt.
0–7 ngày: Hồ sơ thô đầy đủ cho gỡ lỗi hoạt động. Bảy ngày đủ ngắn cho hầu hết các nhóm.
7–90 ngày: Hồ sơ được che giấu cho phân tích xu hướng và xem xét bảo mật. Địa chỉ IP được hoán đổi. Email người dùng trở thành token ổn định. Số tài khoản bị che giấu. Các trường chính — dấu thời gian, mã lỗi, độ trễ, điểm cuối — được giữ nguyên.
90+ ngày (nếu cần): Chỉ đầu ra tổng hợp. Số lượng sự kiện, tỷ lệ lỗi, phạm vi độ trễ. Không có hồ sơ cấp người dùng nào còn lại.
Thông tin cá nhân dừng lại ở bảy ngày. Đầu ra tổng hợp có thể tiếp tục mà không phơi bày bất kỳ ai. Xem Bảo mật & Tuân thủ để biết thêm chi tiết.
Giữ Cấu Trúc Nguyên Vẹn Cho Giám Sát
Che giấu tốt giữ cấu trúc JSON nguyên vẹn. Nó chỉ hoán đổi nội dung. Điều này giữ đầu ra hữu ích cho gỡ lỗi và cảnh báo.
Giữ nguyên:
- Khóa JSON và lồng nhau
- Dấu thời gian và thứ tự thời gian
- Loại lỗi và mã trạng thái HTTP
- Phương thức HTTP, đường dẫn và giá trị độ trễ
- Loại sự kiện kinh doanh
Hoán đổi:
- Địa chỉ email → token ổn định cho mỗi bản gốc (ví dụ:
user1@example.com) - Địa chỉ IP → phạm vi RFC 5737 (
192.0.2.x) - Số tài khoản →
ACCT_XXXXX - Số điện thoại →
+XX XXX XXX XXXX - Tên trong văn bản lỗi →
[PERSON]
Các token ổn định giữ các dấu vết hữu ích. Một dấu vết cho user1@example.com trên 40 mục hoạt động giống như bản gốc. Các số liệu tổng hợp — tỷ lệ lỗi, độ trễ, thông lượng — không cần thông tin cá nhân nào cả. Xem Bảng Thuật Ngữ để biết các thuật ngữ giả danh hóa và ẩn danh hóa.
Ba Cách Tích Hợp Điều Này
Ba mẫu bao gồm hầu hết các nhóm kỹ thuật.
Tùy chọn 1 — Che giấu pipeline: Fluentd hoặc Logstash chặn mỗi dòng trước khi gửi tiếp. Một bước che giấu chạy nội tuyến. Elastic hoặc Datadog chỉ nhận hồ sơ sạch. Không cần thay đổi mã ứng dụng.
Tùy chọn 2 — Lô hàng đêm: Hồ sơ thô hạ cánh trong bộ nhớ cục bộ. Một công việc hàng đêm che giấu đầu ra của ngày trước và xóa phiên bản thô. Hồ sơ được che giấu đến bộ nhớ lâu dài. Đầu ra thô được giữ chỉ bảy ngày.
Tùy chọn 3 — Che giấu trước khi chia sẻ: Hồ sơ thô ở nội bộ với kiểm soát truy cập nghiêm ngặt. Trước khi chia sẻ với người kiểm tra thâm nhập hoặc nhà thầu bên ngoài, chạy một lượt che giấu. Các bên bên ngoài luôn nhận phiên bản sạch.
Đối với tài liệu GDPR, che giấu là "biện pháp kỹ thuật" theo Điều 32. Ghi lại công cụ, cài đặt của nó và chính sách lưu giữ của bạn trong Hồ Sơ Hoạt Động Xử Lý (RoPA) theo Điều 30. Xem Câu Hỏi Thường Gặp của chúng tôi để biết các câu hỏi RoPA phổ biến.
Muốn một ví dụ thực tế? Kiểm tra nghiên cứu trường hợp để biết chi tiết triển khai cụ thể. Bạn cũng có thể xem xét giá cả của chúng tôi để xem kế hoạch nào bao gồm các pipeline che giấu tích hợp.
Nguồn Tham Khảo
- Điều 5 GDPR: Các Nguyên Tắc Xử Lý Dữ Liệu — ĐÃ XÁC MINH-NGOẠI
- Ý kiến EDPB 5/2019 về Chỉ Thị ePrivacy và GDPR — ĐÃ XÁC MINH-NGOẠI
- Sonra.io: Che Giấu PII Trong Dữ Liệu JSON và XML — ĐÃ XÁC MINH-NGOẠI