By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

Presidio Bỏ Sót 220+ Thực Thể GDPR

Presidio được cài sẵn ~40 bộ nhận diện thực thể mặc định tập trung vào định danh Mỹ. Các tổ chức châu Âu cần IBAN, Codice Fiscale và nhiều hơn nữa.

June 5, 20267 phút đọc
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Presidio Bỏ Sót 220+ Thực Thể GDPR: Khoảng Trống Bao Phủ EU

Cập nhật cho 2026

Microsoft Presidio được cài sẵn khoảng 40 bộ nhận diện thực thể mặc định. Đối với triển khai Mỹ, điều này hoạt động. Nó bao gồm SSN, hộ chiếu Mỹ, bằng lái xe, thẻ tín dụng, và email.

Đối với triển khai EU, khoảng trống rất lớn. GDPR bao gồm tất cả dữ liệu cá nhân EU. Điều này áp dụng bất kể quốc tịch của chủ thể dữ liệu. Các nhóm EU cần bộ nhận diện mà Presidio không cài sẵn.

Những Gì Presidio Bao Gồm

Các mặc định của Presidio thuộc bốn nhóm.

ID tập trung vào Mỹ:

  • Số An Sinh Xã Hội Mỹ (SSN)
  • Số Hộ Chiếu Mỹ
  • Số Bằng Lái Xe Mỹ
  • Số Tài Khoản Ngân Hàng Mỹ
  • ITIN Mỹ
  • Số Giấy Phép Y Tế Mỹ

ID phổ quát:

  • Địa Chỉ Email
  • Số Điện Thoại
  • Địa Chỉ IP
  • Số Thẻ Tín Dụng
  • Địa Chỉ Ví Tiền Mã Hóa
  • URL

Thực thể văn bản (dựa trên NER):

  • PERSON
  • LOCATION
  • ORGANIZATION
  • DATE_TIME

Quốc tế hạn chế:

  • Số NHS Anh
  • Số Bảo Hiểm Quốc Gia Anh (NINO)
  • Một số định danh tài chính

Tổng cộng: khoảng 40 bộ nhận diện.

Những Gì Nhóm EU Cần

ID Tài Chính

IBAN xuất hiện trong hầu hết tài liệu kinh doanh EU. Nó xuất hiện trong thanh toán, hóa đơn, và bảng lương. IBAN theo ISO 13616. Presidio không có bộ nhận diện IBAN.

Lấy một công ty fintech Đức. Mọi tệp thanh toán đều có IBAN. Không có tính năng phát hiện IBAN, công cụ chỉ tìm kiếm số thẻ tín dụng. ID thanh toán EU chính bị bỏ sót. Điều đó có nghĩa là một phần dữ liệu được bảo vệ theo GDPR quan trọng không bao giờ được tìm thấy.

ID Thuế Quốc Gia

Không có cái nào trong số này trong mặc định của Presidio:

  • Steueridentifikationsnummer Đức: 11 chữ số
  • NIR Pháp: 15 chữ số với khóa kiểm tra
  • Codice Fiscale Ý: 16 ký tự có tổng kiểm tra
  • NIF/NIE Tây Ban Nha: 9 ký tự với một chữ cái
  • BSN Hà Lan: 9 chữ số với xác thực elfproef

Một nhóm bảng lương EU xử lý tài liệu từ nhiều quốc gia thành viên. Không có những thứ này, họ bỏ sót các ID nhạy cảm nhất trong những hồ sơ đó.

ID Y Tế Quốc Gia

Số NHS Anh được bao gồm. Những cái này thì không:

  • NIR Pháp (cũng là ID y tế)
  • Krankenkassennummer Đức
  • Codice Fiscale Ý (cũng là ID y tế)
  • BSN Hà Lan (dùng cho bảo hiểm y tế)

Các nhóm y tế EU cần những thứ này để bảo vệ dữ liệu ở mức GDPR.

Bằng Lái Xe EU

Bằng lái xe EU thuộc Chỉ thị 2006/126/EC. Mỗi quốc gia thành viên có định dạng riêng. Cấu trúc chữ số và ký tự khác nhau theo từng quốc gia. Presidio có bộ nhận diện bằng lái xe chỉ dành cho Mỹ. Không có hỗ trợ bằng lái xe EU. Điều này có nghĩa là dữ liệu bằng lái xe EU đi qua mà không bị phát hiện.

Số VAT

Số VAT EU xuất hiện trong mọi giao dịch B2B. Định dạng: mã quốc gia 2 chữ cái cộng 8–12 chữ số. Presidio không có bộ nhận diện VAT. Số VAT liên kết với các công ty và chủ sở hữu của họ. Chúng là dữ liệu cá nhân theo GDPR.

Để biết thêm về nghĩa vụ GDPR, xem tài nguyên tuân thủ GDPR.

Chi Phí Của Bộ Nhận Diện Tùy Chỉnh

Khi các nhóm EU phát hiện khoảng trống, họ xây dựng bộ nhận diện tùy chỉnh. Điều này mất thời gian thực sự.

Thời gian mỗi bộ nhận diện (ước tính thô):

  • Nghiên cứu định dạng: 1–2 giờ
  • Viết class Python: 2–4 giờ
  • Xây dựng regex và xác thực: 2–4 giờ
  • Thêm từ ngữ cảnh: 1–2 giờ
  • Viết kiểm tra: 2–3 giờ
  • Triển khai và kiểm tra: 1–2 giờ

Đó là 9–17 giờ mỗi bộ nhận diện. Đây chỉ là ước tính thô.

Ví dụ: một công ty fintech Đức cần bốn bộ nhận diện.

IBAN, Steuer-ID, bằng lái xe EU, VAT Đức.

  • 4 bộ nhận diện với 13 giờ mỗi cái = 52 giờ làm việc
  • Với €100/giờ: khoảng €5.200

Đó chỉ bao gồm lần xây dựng đầu tiên. Định dạng thay đổi theo thời gian. Các trường hợp ngoại lệ mới xuất hiện. Cập nhật API Presidio có thể phá vỡ mọi thứ. Mỗi thay đổi cần một nhà phát triển xem xét và sửa. Công việc liên tục thêm vào chi phí năm này qua năm khác.

Thư Viện Được Quản Lý

anonym.legal mở rộng Presidio với 285+ loại thực thể. Nhóm duy trì thư viện được cập nhật. Các định danh EU được bao gồm từ ngày đầu tiên.

Những gì vượt ra ngoài mặc định Presidio:

  • IBAN ở tất cả định dạng quốc gia thành viên EU
  • ID thuế quốc gia: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, và nhiều hơn
  • ID y tế quốc gia EU
  • Số VAT (định dạng EU)
  • Định dạng bằng lái xe EU
  • Định dạng hộ chiếu châu Âu
  • Biến thể thực thể trong 48 ngôn ngữ được hỗ trợ

Khi Đức cập nhật định dạng ID thuế, bản cập nhật được phát hành cùng với dịch vụ. Không cần pull request từ nhóm của bạn.

Đối với các ID không có trong thư viện, trình tạo thực thể tùy chỉnh cho phép bạn thêm các mẫu. Không cần code Python.

Xem chi tiết bảo mật và tuân thủ để biết cách cập nhật và trail kiểm toán hoạt động.

Ví Dụ Fintech Đức

Một công ty fintech Đức cần phát hiện IBAN, BIC, Steuer-ID, và Handelsregisternummer trong tài liệu khách hàng.

Tỷ lệ phát hiện mặc định Presidio cho bốn loại này: 0%.

Không có loại nào trong thư viện mặc định. Đây không phải là độ chính xác kém. Đây là không có phát hiện. Công cụ không bỏ sót chúng một phần. Nó không thấy chúng chút nào.

So sánh chi phí:

Cách tiếp cậnChi phí năm đầu
Bộ nhận diện tùy chỉnh (4 × 13 giờ với €100/giờ)~€5.200 cộng bảo trì liên tục
Thư viện thực thể được quản lý (gói Pro)€180/năm, cả bốn đều được bao gồm

Khoảng cách là khoảng 29x trong năm đầu. Mỗi năm sau đó, bảo trì tùy chỉnh thêm chi phí. Giá dịch vụ được quản lý vẫn ổn định.

Kết Luận

Các mặc định của Presidio phục vụ tốt cho các trường hợp sử dụng Mỹ. Đối với triển khai EU theo GDPR, chúng còn thiếu. Khoảng trống yêu cầu công việc bộ nhận diện tùy chỉnh hoặc dịch vụ được quản lý.

Đối với các nhóm EU nơi tuân thủ là bắt buộc và thời gian kỹ thuật còn eo hẹp, thư viện thực thể EU được xây dựng sẵn loại bỏ một dự án xây dựng hơn 50 giờ. Tệp có thể được xử lý từ ngày đầu tiên. Không cần code tùy chỉnh trước.

Nguồn

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.