By · Last updated 2026-05-31

Quay lại BlogGDPR & Tuân Thủ

Vượt ra ngoài SSN: Ẩn danh hóa ID nội bộ tổ chức

Mọi tổ chức đều có định danh nội bộ — mã nhân viên, số tài khoản, mã đặt hàng — có thể nhận dạng cá nhân trong ngữ cảnh nhưng bị bỏ sót bởi công cụ PII tiêu chuẩn.

May 31, 20267 phút đọc
custom PII detectionorganizational identifiersre-identification riskGDPR pseudonymizationcustom entity

Vượt Ra Ngoài SSN: Ẩn Danh Hóa ID Nội Bộ Của Tổ Chức

Công cụ GDPR của bạn xóa địa chỉ email. Nó xóa số điện thoại. Nó xóa tên. Bạn chạy xuất dữ liệu hỗ trợ qua nó. Rồi bạn chia sẻ đầu ra với nhóm phân tích.

Số tài khoản khách hàng của bạn vẫn còn trong mỗi phiếu. Mã đặt hàng của bạn vẫn ở đó. ID người dùng nội bộ của bạn cũng vẫn còn.

Các ID này trông vô hại khi đứng một mình. Không có bảng tra cứu, chúng không nêu tên một người. Nhưng nhóm phân tích của bạn có bảng đó. CRM của bạn có nó. Cơ sở dữ liệu hỗ trợ của bạn có nó. Bất kỳ ai có quyền truy cập đều có thể tìm ra người trong vài giây.

Đây là thất bại GDPR. Công cụ không bị hỏng. Nó chỉ không bao giờ được yêu cầu tìm kiếm ID của bạn.

Những Gì Công Cụ PII Tiêu Chuẩn Phát Hiện

Các công cụ PII tiêu chuẩn bao phủ các định dạng phổ quát. Chúng bắt những gì mọi tổ chức sử dụng.

Công cụ tiêu chuẩn phát hiện:

  • Số an sinh xã hội (SSN Mỹ, NINO Anh, định dạng ID quốc gia EU)
  • Địa chỉ email
  • Số điện thoại
  • Số thẻ tín dụng
  • Tên
  • Số hộ chiếu và bằng lái xe

Công cụ tiêu chuẩn không phát hiện:

  • Mã nhân viên trong định dạng EMP-XXXXX của bạn
  • Số tài khoản khách hàng trong định dạng ACC-XXXXXXXX-XX của bạn
  • Mã đặt hàng trong định dạng ORD-XXXXXXX của bạn
  • ID người dùng nội bộ ở định dạng UUID hoặc tùy chỉnh
  • Mã tham chiếu đặc thù đối tác

Các công cụ tiêu chuẩn tìm các mẫu phổ quát. ID nội bộ của bạn không phổ quát. Chúng cần thiết lập tùy chỉnh để được tìm thấy.

Rủi Ro Tái Nhận Dạng

Một công ty xuất phiếu hỗ trợ để xem xét chất lượng. Xóa PII tiêu chuẩn loại bỏ tên, email và số điện thoại. Số tài khoản trong định dạng ACC-XXXXXXXX-XX không bị chạm.

Bản xuất đến nhóm phân tích. Một nhà phân tích nối bảng phiếu với cơ sở dữ liệu khách hàng theo số tài khoản. Người đó được tìm thấy ngay lập tức. Không cần thủ thuật đặc biệt. Đó là một câu truy vấn SQL thông thường.

Điều 4(5) GDPR định nghĩa giả danh hóa là xử lý trong đó dữ liệu "không còn có thể được quy cho một chủ thể dữ liệu cụ thể mà không cần thông tin bổ sung." Số tài khoản không đáp ứng bài kiểm tra đó. Thông tin bổ sung — cơ sở dữ liệu khách hàng của bạn — nằm ngay trong tổ chức của bạn.

Bản xuất "ẩn danh" không thực sự ẩn danh.

Xây Dựng Mẫu Thực Thể Tùy Chỉnh

Thiết lập thực thể tùy chỉnh nhanh chóng. Các nhóm tuân thủ có thể làm điều này mà không cần giúp đỡ kỹ thuật.

Bước 1: Liệt kê các định dạng ID của bạn.

Viết ra từng cái. Ví dụ: tài khoản ACC-XXXXXXXX-XX, mã đặt hàng ORD-XXXXXXX, mã nhân viên EMP-XXXXX.

Bước 2: Mô tả định dạng bằng ngôn ngữ thuần túy.

"Số tài khoản bắt đầu bằng ACC, sau đó là dấu gạch ngang, rồi 8 chữ số, rồi dấu gạch ngang, rồi 2 chữ cái viết hoa."

Tạo mẫu hỗ trợ AI trả về: ACC-\d{8}-[A-Z]{2}

Bước 3: Kiểm tra trên dữ liệu mẫu.

Tải lên 20 đến 30 tài liệu. Xác nhận tất cả các phiên bản được tìm thấy. Xác nhận không xuất hiện kết quả dương tính giả.

Bước 4: Chọn phương pháp.

Đối với ID được dùng làm khóa nối, nơi phân tích cần liên kết hồ sơ:

  • Giả danh hóa. Thay thế ACC-00123456-AB bằng ACC-99876543-XY mỗi lần. Cùng đầu vào luôn cho cùng đầu ra. Các nối vẫn hoạt động. Giá trị gốc không thể tìm thấy mà không có khóa.

Đối với ID không cần trong phân tích:

  • Xóa. Thay thế bằng [REDACTED]. Đơn giản. Vĩnh viễn.

Bước 5: Lưu như một preset chia sẻ.

Lưu thực thể tùy chỉnh — hoặc một bộ chúng — vào preset chia sẻ. Thiết lập áp dụng cho mọi cách dùng: tải lên hàng loạt, gọi API, giao diện trình duyệt. Thành viên nhóm mới nhận toàn bộ cấu hình ngay lập tức.

Nghiên Cứu Điển Hình: 180.000 Phiếu Hỗ Trợ

Một công ty tìm thấy 180.000 phiếu hỗ trợ trong kho phân tích của họ. Tên và email đã được xóa. Số tài khoản thì chưa. Mỗi phiếu vẫn giữ giá trị ACC-XXXXXXXX-XX còn hiệu lực.

Tiến trình giải quyết:

  1. Cán bộ tuân thủ xác định mẫu ACC — 15 phút
  2. Kiểm tra trên 30 phiếu mẫu — 20 phút
  3. Xác nhận độ chính xác — 10 phút
  4. Xử lý 180.000 phiếu trong một đợt chạy qua đêm
  5. Thay thế các bảng kho bằng phiên bản sạch

Tổng thời gian cho cán bộ tuân thủ: 45 phút. Không có hỗ trợ thực thể tùy chỉnh, bản sửa lỗi sẽ cần một phiếu kỹ thuật, xem xét code và triển khai. Điều đó mất nhiều tuần, không phải nhiều giờ.

Để xem xét gần hơn cách ID tùy chỉnh tạo rủi ro trong các công cụ hỗ trợ AI, xem hướng dẫn GDPR và AI hỗ trợ.

Nơi ID Tùy Chỉnh Lan Rộng

ID nội bộ xuất hiện ở nhiều nơi hơn hầu hết nhóm mong đợi.

Tài liệu nội bộ:

  • Ghi chú cuộc họp với tham chiếu ID tài khoản hoặc đặt hàng
  • Chuỗi email về các trường hợp khách hàng
  • Bài trình bày với dữ liệu nghiên cứu điển hình

Chia sẻ với bên thứ ba:

  • Báo cáo cho cơ quan quản lý có số tham chiếu trường hợp
  • Tệp kiểm toán có tham chiếu khách hàng
  • Tệp nhà cung cấp mang ID khách hàng

Nghiên cứu và phân tích:

  • Bộ dữ liệu hành trình khách hàng
  • Xuất xem xét chất lượng hỗ trợ
  • Dữ liệu huấn luyện cho mô hình ML nội bộ

Mỗi ngữ cảnh cần cùng thiết lập thực thể tùy chỉnh để tạo ra đầu ra thực sự ẩn danh.

Giả Danh Hóa vs. Ẩn Danh Hóa

GDPR vạch ra ranh giới rõ ràng.

Giả danh hóa thay thế ID bằng các đại diện. Người gốc có thể được tìm thấy lại nếu ai đó có bảng tra cứu. Dữ liệu này vẫn là dữ liệu cá nhân. Nó giảm rủi ro. Nó không loại bỏ nghĩa vụ GDPR của bạn.

Ẩn danh hóa loại bỏ khả năng tái nhận dạng. Dữ liệu ẩn danh không phải là dữ liệu cá nhân. GDPR không áp dụng cho nó.

Số tài khoản và mã đặt hàng là giả danh khi bảng tra cứu tồn tại. Thay thế chúng bằng đại diện cố định giảm rủi ro nhưng GDPR vẫn áp dụng. Thay thế chúng bằng token ngẫu nhiên — và xóa khóa — loại bỏ nghĩa vụ GDPR nhưng phá vỡ phân tích dựa trên nối.

Để chia sẻ với bên thứ ba thiếu bảng tra cứu của bạn: giả danh hóa có thể đủ. Đối với phân tích nội bộ, cần ẩn danh hóa hoàn toàn hoặc kiểm soát truy cập nghiêm ngặt. Hướng dẫn tuân thủ pháp lý hướng dẫn cách ghi lại từng cách tiếp cận cho ROPA của bạn.

Kết Luận

Khoảng trống không phải là lỗi công cụ. Đó là khoảng trống thiết lập. Không có công cụ nào có thể biết định dạng số tài khoản của bạn trừ khi bạn nói cho nó biết.

Thiết lập thực thể tùy chỉnh đóng khoảng trống trong vài giờ. Nhóm tuân thủ xác định các định dạng, kiểm tra chúng trên dữ liệu mẫu và áp dụng chúng trên tất cả các chế độ sử dụng. Không cần giúp đỡ kỹ thuật.

180.000 số tài khoản chưa được xóa không có ở đó vì công cụ thất bại. Chúng ở đó vì công cụ chưa bao giờ được yêu cầu tìm chúng.

Nguồn Tài Liệu

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.