Tại Sao Excel Là Loại Tệp Rủi Ro Nhất Của Bạn
Tệp Excel là một trong những rủi ro GDPR lớn nhất trong hầu hết các doanh nghiệp. Hồ sơ y tế có thể mang nhiều dữ liệu nhạy cảm hơn mỗi hàng. Nhưng bảng tính tích lũy PII nhanh chóng — và các nhóm tuân thủ thường bỏ lỡ chúng.
Ba điều làm cho tệp Excel khó quản lý.
Khối lượng: Một tệp XLSX có thể chứa 50.000 hàng và 100 cột. Đó là năm triệu ô. Không có xem xét thủ công nào có thể kiểm tra tất cả chúng.
Bố cục lưới: Văn bản chảy theo một hướng. Excel trải dữ liệu qua các hàng và cột. Dữ liệu cá nhân có thể ẩn ở bất kỳ đâu trong lưới đó.
Nội dung hỗn hợp: Các dải lương, mã phòng ban và cấp bậc công việc nằm trong cùng tệp với SSN và địa chỉ email. Xóa tất cả mọi thứ làm cho tệp vô dụng.
Lưu giữ lâu dài: Danh sách nhân viên và hồ sơ khách hàng ở trong Excel nhiều năm. Điều 5(1)(e) GDPR nói rằng dữ liệu phải được lưu giữ "không lâu hơn mức cần thiết." Các tệp "có thể hữu ích" thường ở lại sau thời điểm đó rất lâu.
Tại Sao Quét Văn Bản Tiêu Chuẩn Thất Bại Với Bảng Tính
Các công cụ phân tích văn bản được xây dựng cho tài liệu. Chúng gặp sự cố với bảng tính theo một số cách phổ biến.
Vấn Đề SSN Dưới Dạng Số
Excel lưu Số An Sinh Xã Hội không có dấu gạch ngang (123456789) dưới dạng số thuần túy — không phải văn bản. Một máy quét được xây dựng để tìm ###-##-#### sẽ bỏ lỡ chúng. Một công cụ tốt phải biết rằng số 9 chữ số trong cột có tên "SSN" là Số An Sinh Xã Hội.
Vấn Đề Ngày Tháng Dưới Dạng Số
Excel lưu trữ ngày tháng dưới dạng số tuần tự. Ngày 6 tháng 2 năm 2024 được lưu trữ là 45329. Xuất CSV sẽ hiển thị "45329" trong cột "Ngày Sinh". Máy quét phải chuyển đổi số đó thành ngày thực trước khi có thể đánh dấu giá trị.
Vấn Đề SSN Một Phần
Một số hệ thống chỉ hiển thị bốn chữ số cuối của SSN (*--1234). Số đầy đủ nằm trong cột bị khóa. Giá trị một phần vẫn phải được ẩn danh hóa — ngay cả khi nó không giống như SSN đầy đủ.
Vấn Đề PII Trong Công Thức
Một số ô xây dựng PII từ các ô khác. Một ô với =CONCATENATE(B2," ",C2) hiển thị tên đầy đủ. Nếu bạn xóa các cột B và C, tên đầy đủ đó vẫn hiển thị trong ô công thức. Một công cụ chỉ đọc các giá trị được lưu trữ — không phải liên kết công thức — sẽ để lại PII tại chỗ.
Vấn Đề Đa Bảng
Một sổ làm việc lớn có thể có năm bảng: Danh Sách Khách Hàng, Đơn Hàng, Phiếu Hỗ Trợ, Thanh Toán và Phân Tích. Tên khách hàng xuất hiện trong tất cả năm. "John Smith" trong một bảng phải trở thành cùng token — "PERSON_0047" — trong mọi bảng khác. Hai token khác nhau phá vỡ các liên kết bản ghi.
Tiêu Đề Cột Như Một Tín Hiệu
Cải tiến tốt nhất trong phát hiện PII bảng tính là phân tích tiêu đề cột.
Một cột có tên "SSN" cho công cụ biết rằng tất cả các giá trị trong cột đó là Số An Sinh Xã Hội. Điều này hoạt động ngay cả khi các giá trị là một phần, có định dạng kỳ lạ hoặc được lưu trữ dưới dạng số.
| Tiêu đề cột | Tín hiệu của nó |
|---|---|
| SSN / Số An Sinh Xã Hội / Mã Số Thuế | Xử lý số 9 chữ số như SSN |
| Email / Địa Chỉ Email | Đánh dấu ngay cả các mẫu email một phần |
| Điện Thoại / Số Điện Thoại / Di Động | Chấp nhận bất kỳ định dạng điện thoại nào |
| DOB / Ngày Sinh | Chuyển đổi số tuần tự thành ngày |
| Họ / Tên / Họ Và Tên | Hạ thấp ngưỡng phát hiện tên |
| Địa Chỉ / Đường / Thành Phố / Mã Bưu Chính | Kết hợp các trường vị trí gần nhau |
| ID Bệnh Nhân / MRN / Số Hồ Sơ | Áp dụng các mẫu ID y tế |
Ngữ cảnh cột không thay thế quét nội dung. Nó bổ sung thêm. Một cột có tên "SSN" với 100 giá trị: quét nội dung bắt 99 cái được định dạng tốt. Ngữ cảnh cột bắt cái duy nhất có vẻ kỳ lạ.
Giữ Cấu Trúc, Xóa Tên
Mục tiêu trong hầu hết các trường hợp GDPR Excel không phải là phá hủy tệp. Mà là loại bỏ dữ liệu cá nhân trong khi giữ lại các phần làm cho tệp hữu ích.
Đối với tệp hồ sơ nhân viên 15.000 hàng, nhân viên tuân thủ cần:
Xóa:
- Tên nhân viên → token PERSON_XXXX
- SSN → ĐÃ XÓA
- Địa chỉ email → ĐÃ XÓA
- Số điện thoại → ĐÃ XÓA
- Địa chỉ nhà → ĐÃ XÓA
Giữ:
- Mã phòng ban
- Chức danh công việc (chỉ vai trò chung)
- Dải lương (các danh mục rộng)
- Điểm hiệu suất (dữ liệu nhóm)
- Ngày bắt đầu (cho thống kê thâm niên)
- Mã người quản lý (nếu được giả danh hóa)
Một công cụ biết sự khác biệt giữa "dữ liệu đặt tên người" và "dữ liệu mô tả công việc" cho bạn một tệp vẫn hoạt động cho phân tích nhân sự — và đáp ứng các quy tắc tối thiểu hóa dữ liệu GDPR.
Trường Hợp Thực Tế: Chuyển Dữ Liệu Nhân Sự M&A
Một công ty thâu tóm nhận được hồ sơ nhân viên từ công ty mục tiêu: XLSX 15.000 hàng với 40 cột. Tệp phải đến một công ty nhân sự bên ngoài để lập kế hoạch phúc lợi. GDPR nói rằng chỉ có thể chia sẻ dữ liệu cần thiết cho nhiệm vụ đó.
Trước khi xử lý: 40 cột với tên đầy đủ, SSN, email, địa chỉ nhà, liên hệ khẩn cấp và chi tiết ngân hàng.
Sau khi xử lý theo ngữ cảnh cột:
- 12 cột trực tiếp xác định người (tên, SSN, email, điện thoại, địa chỉ, dữ liệu ngân hàng): được thay thế bằng token nhất quán
- 3 cột gián tiếp xác định người (ID nhân viên, mã người quản lý, mã công việc): được thay thế bằng token giả danh khớp trong tệp
- 25 cột là dữ liệu tổng hợp (dải lương, phòng ban, thâm niên, cấp bậc): không thay đổi
Thời gian: 8 phút cho 600.000 ô
Đầu ra: Cùng bố cục XLSX, 40 cột, 15 ẩn danh hóa, 25 không thay đổi
Nhật ký kiểm toán: Bản ghi cấp ô của mọi hành động với loại thực thể, điểm tin cậy và tín hiệu cột được sử dụng
Công ty nhân sự nhận được bộ dữ liệu đầy đủ cho công việc của mình — không có tên hoặc ID. Hồ sơ tuân thủ nhận được bằng chứng rằng chỉ dữ liệu đúng được chia sẻ.
Thách thức này không chỉ dành cho Excel. Mọi định dạng tệp đều thất bại theo cách riêng của nó. Xem phân mảnh định dạng ảnh hưởng đến phát hiện PII như thế nào để xem qua các loại tệp.
Ba Quy Tắc Điều 5 GDPR, Một Quy Trình
Ẩn danh hóa bảng tính có cấu trúc đáp ứng ba quy tắc cùng một lúc.
Tối thiểu hóa dữ liệu (Điều 5(1)(c)): Chỉ các cột cần thiết cho nhiệm vụ đến với người nhận. Các cột xác định bị xóa.
Giới hạn lưu trữ (Điều 5(1)(e)): Tệp gốc ở lại để lưu giữ pháp lý. Một bản sao sạch được tạo để chia sẻ — với nhu cầu lưu giữ ngắn hơn hoặc không có.
Tính toàn vẹn và bảo mật (Điều 5(1)(f)): Không có dữ liệu xác định nào rời khỏi vùng kiểm soát. Chỉ các bản sao sạch được chia sẻ.
Nhật ký kiểm toán từ quy trình cũng là bằng chứng Điều 5(2) của bạn. Nó cho thấy mỗi quy tắc được đáp ứng như thế nào cho mỗi tệp.
Nếu nhóm của bạn xử lý DSAR hoặc xuất dữ liệu lớn, logic tương tự áp dụng ở cấp API. Xem cách tối thiểu hóa dữ liệu GDPR hoạt động trong API thời gian thực.
Đối với các nhóm xử lý khối lượng lớn trong thời hạn chặt chẽ, xem xử lý theo lô GDPR DSAR theo quy mô để biết các mẫu quy trình làm việc cũng áp dụng ở đây.