By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

PII Trong Excel: Ẩn Danh Hóa Hàng Trăm Cột

Excel là một trong những loại tài liệu có mật độ PII cao nhất trong hoạt động kinh doanh. Đây là lý do tại sao phân tích văn bản tiêu chuẩn thất bại với bảng tính và ngữ cảnh cột.

June 5, 20268 phút đọc
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Tại Sao Excel Là Loại Tệp Rủi Ro Nhất Của Bạn

Tệp Excel là một trong những rủi ro GDPR lớn nhất trong hầu hết các doanh nghiệp. Hồ sơ y tế có thể mang nhiều dữ liệu nhạy cảm hơn mỗi hàng. Nhưng bảng tính tích lũy PII nhanh chóng — và các nhóm tuân thủ thường bỏ lỡ chúng.

Ba điều làm cho tệp Excel khó quản lý.

Khối lượng: Một tệp XLSX có thể chứa 50.000 hàng và 100 cột. Đó là năm triệu ô. Không có xem xét thủ công nào có thể kiểm tra tất cả chúng.

Bố cục lưới: Văn bản chảy theo một hướng. Excel trải dữ liệu qua các hàng và cột. Dữ liệu cá nhân có thể ẩn ở bất kỳ đâu trong lưới đó.

Nội dung hỗn hợp: Các dải lương, mã phòng ban và cấp bậc công việc nằm trong cùng tệp với SSN và địa chỉ email. Xóa tất cả mọi thứ làm cho tệp vô dụng.

Lưu giữ lâu dài: Danh sách nhân viên và hồ sơ khách hàng ở trong Excel nhiều năm. Điều 5(1)(e) GDPR nói rằng dữ liệu phải được lưu giữ "không lâu hơn mức cần thiết." Các tệp "có thể hữu ích" thường ở lại sau thời điểm đó rất lâu.

Tại Sao Quét Văn Bản Tiêu Chuẩn Thất Bại Với Bảng Tính

Các công cụ phân tích văn bản được xây dựng cho tài liệu. Chúng gặp sự cố với bảng tính theo một số cách phổ biến.

Vấn Đề SSN Dưới Dạng Số

Excel lưu Số An Sinh Xã Hội không có dấu gạch ngang (123456789) dưới dạng số thuần túy — không phải văn bản. Một máy quét được xây dựng để tìm ###-##-#### sẽ bỏ lỡ chúng. Một công cụ tốt phải biết rằng số 9 chữ số trong cột có tên "SSN" là Số An Sinh Xã Hội.

Vấn Đề Ngày Tháng Dưới Dạng Số

Excel lưu trữ ngày tháng dưới dạng số tuần tự. Ngày 6 tháng 2 năm 2024 được lưu trữ là 45329. Xuất CSV sẽ hiển thị "45329" trong cột "Ngày Sinh". Máy quét phải chuyển đổi số đó thành ngày thực trước khi có thể đánh dấu giá trị.

Vấn Đề SSN Một Phần

Một số hệ thống chỉ hiển thị bốn chữ số cuối của SSN (*--1234). Số đầy đủ nằm trong cột bị khóa. Giá trị một phần vẫn phải được ẩn danh hóa — ngay cả khi nó không giống như SSN đầy đủ.

Vấn Đề PII Trong Công Thức

Một số ô xây dựng PII từ các ô khác. Một ô với =CONCATENATE(B2," ",C2) hiển thị tên đầy đủ. Nếu bạn xóa các cột B và C, tên đầy đủ đó vẫn hiển thị trong ô công thức. Một công cụ chỉ đọc các giá trị được lưu trữ — không phải liên kết công thức — sẽ để lại PII tại chỗ.

Vấn Đề Đa Bảng

Một sổ làm việc lớn có thể có năm bảng: Danh Sách Khách Hàng, Đơn Hàng, Phiếu Hỗ Trợ, Thanh Toán và Phân Tích. Tên khách hàng xuất hiện trong tất cả năm. "John Smith" trong một bảng phải trở thành cùng token — "PERSON_0047" — trong mọi bảng khác. Hai token khác nhau phá vỡ các liên kết bản ghi.

Tiêu Đề Cột Như Một Tín Hiệu

Cải tiến tốt nhất trong phát hiện PII bảng tính là phân tích tiêu đề cột.

Một cột có tên "SSN" cho công cụ biết rằng tất cả các giá trị trong cột đó là Số An Sinh Xã Hội. Điều này hoạt động ngay cả khi các giá trị là một phần, có định dạng kỳ lạ hoặc được lưu trữ dưới dạng số.

Tiêu đề cộtTín hiệu của nó
SSN / Số An Sinh Xã Hội / Mã Số ThuếXử lý số 9 chữ số như SSN
Email / Địa Chỉ EmailĐánh dấu ngay cả các mẫu email một phần
Điện Thoại / Số Điện Thoại / Di ĐộngChấp nhận bất kỳ định dạng điện thoại nào
DOB / Ngày SinhChuyển đổi số tuần tự thành ngày
Họ / Tên / Họ Và TênHạ thấp ngưỡng phát hiện tên
Địa Chỉ / Đường / Thành Phố / Mã Bưu ChínhKết hợp các trường vị trí gần nhau
ID Bệnh Nhân / MRN / Số Hồ SơÁp dụng các mẫu ID y tế

Ngữ cảnh cột không thay thế quét nội dung. Nó bổ sung thêm. Một cột có tên "SSN" với 100 giá trị: quét nội dung bắt 99 cái được định dạng tốt. Ngữ cảnh cột bắt cái duy nhất có vẻ kỳ lạ.

Giữ Cấu Trúc, Xóa Tên

Mục tiêu trong hầu hết các trường hợp GDPR Excel không phải là phá hủy tệp. Mà là loại bỏ dữ liệu cá nhân trong khi giữ lại các phần làm cho tệp hữu ích.

Đối với tệp hồ sơ nhân viên 15.000 hàng, nhân viên tuân thủ cần:

Xóa:

  • Tên nhân viên → token PERSON_XXXX
  • SSN → ĐÃ XÓA
  • Địa chỉ email → ĐÃ XÓA
  • Số điện thoại → ĐÃ XÓA
  • Địa chỉ nhà → ĐÃ XÓA

Giữ:

  • Mã phòng ban
  • Chức danh công việc (chỉ vai trò chung)
  • Dải lương (các danh mục rộng)
  • Điểm hiệu suất (dữ liệu nhóm)
  • Ngày bắt đầu (cho thống kê thâm niên)
  • Mã người quản lý (nếu được giả danh hóa)

Một công cụ biết sự khác biệt giữa "dữ liệu đặt tên người" và "dữ liệu mô tả công việc" cho bạn một tệp vẫn hoạt động cho phân tích nhân sự — và đáp ứng các quy tắc tối thiểu hóa dữ liệu GDPR.

Trường Hợp Thực Tế: Chuyển Dữ Liệu Nhân Sự M&A

Một công ty thâu tóm nhận được hồ sơ nhân viên từ công ty mục tiêu: XLSX 15.000 hàng với 40 cột. Tệp phải đến một công ty nhân sự bên ngoài để lập kế hoạch phúc lợi. GDPR nói rằng chỉ có thể chia sẻ dữ liệu cần thiết cho nhiệm vụ đó.

Trước khi xử lý: 40 cột với tên đầy đủ, SSN, email, địa chỉ nhà, liên hệ khẩn cấp và chi tiết ngân hàng.

Sau khi xử lý theo ngữ cảnh cột:

  • 12 cột trực tiếp xác định người (tên, SSN, email, điện thoại, địa chỉ, dữ liệu ngân hàng): được thay thế bằng token nhất quán
  • 3 cột gián tiếp xác định người (ID nhân viên, mã người quản lý, mã công việc): được thay thế bằng token giả danh khớp trong tệp
  • 25 cột là dữ liệu tổng hợp (dải lương, phòng ban, thâm niên, cấp bậc): không thay đổi

Thời gian: 8 phút cho 600.000 ô

Đầu ra: Cùng bố cục XLSX, 40 cột, 15 ẩn danh hóa, 25 không thay đổi

Nhật ký kiểm toán: Bản ghi cấp ô của mọi hành động với loại thực thể, điểm tin cậy và tín hiệu cột được sử dụng

Công ty nhân sự nhận được bộ dữ liệu đầy đủ cho công việc của mình — không có tên hoặc ID. Hồ sơ tuân thủ nhận được bằng chứng rằng chỉ dữ liệu đúng được chia sẻ.

Thách thức này không chỉ dành cho Excel. Mọi định dạng tệp đều thất bại theo cách riêng của nó. Xem phân mảnh định dạng ảnh hưởng đến phát hiện PII như thế nào để xem qua các loại tệp.

Ba Quy Tắc Điều 5 GDPR, Một Quy Trình

Ẩn danh hóa bảng tính có cấu trúc đáp ứng ba quy tắc cùng một lúc.

Tối thiểu hóa dữ liệu (Điều 5(1)(c)): Chỉ các cột cần thiết cho nhiệm vụ đến với người nhận. Các cột xác định bị xóa.

Giới hạn lưu trữ (Điều 5(1)(e)): Tệp gốc ở lại để lưu giữ pháp lý. Một bản sao sạch được tạo để chia sẻ — với nhu cầu lưu giữ ngắn hơn hoặc không có.

Tính toàn vẹn và bảo mật (Điều 5(1)(f)): Không có dữ liệu xác định nào rời khỏi vùng kiểm soát. Chỉ các bản sao sạch được chia sẻ.

Nhật ký kiểm toán từ quy trình cũng là bằng chứng Điều 5(2) của bạn. Nó cho thấy mỗi quy tắc được đáp ứng như thế nào cho mỗi tệp.

Nếu nhóm của bạn xử lý DSAR hoặc xuất dữ liệu lớn, logic tương tự áp dụng ở cấp API. Xem cách tối thiểu hóa dữ liệu GDPR hoạt động trong API thời gian thực.

Đối với các nhóm xử lý khối lượng lớn trong thời hạn chặt chẽ, xem xử lý theo lô GDPR DSAR theo quy mô để biết các mẫu quy trình làm việc cũng áp dụng ở đây.

Nguồn Tham Khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.