By · Last updated 2026-06-05

Quay lại BlogKỹ Thuật

Vấn Đề Độ Chính Xác 22,7% Của Presidio

Một benchmark năm 2024 cho thấy bộ nhận diện tên người của Presidio đạt độ chính xác 22,7% trong tài liệu kinh doanh — nghĩa là 77,3% phát hiện là dương tính giả.

June 5, 20267 phút đọc
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Vấn Đề Độ Chính Xác 22,7% Của Presidio

Dương tính giả trong phát hiện PII gây ra thiệt hại thực sự. Khi 77,3% những gì công cụ của bạn đánh dấu là "tên người" không phải là tên thật, bạn không đang bảo vệ quyền riêng tư. Bạn đang phá hỏng dữ liệu.

Một benchmark năm 2024 đã kiểm tra mô hình NER mặc định của Microsoft Presidio trên các tài liệu kinh doanh. Bài kiểm tra bao gồm báo cáo tài chính, thư khách hàng, tài liệu sản phẩm, và phiếu hỗ trợ. Kết quả: độ chính xác 22,7% cho việc phát hiện tên.

Con số đó đáng chú ý. Cứ 100 mục được đánh dấu, 23 là tên cá nhân thật. 77 còn lại là dương tính giả — nhãn sản phẩm, thuật ngữ thương hiệu, hoặc nhãn thành phố.

Ba trong bốn phát hiện là sai. Đó không phải là vấn đề hiệu chỉnh nhỏ. Đó là một công cụ bị hỏng cho công việc tài liệu kinh doanh.

Tại Sao Điều Này Xảy Ra

Presidio sử dụng mô hình en_core_web_lg của spaCy theo mặc định. Mô hình này học từ văn bản tin tức. Trong tin tức, hầu hết các danh từ riêng là người thật hoặc địa điểm thật.

Tài liệu kinh doanh thì khác.

Nhãn sản phẩm trông giống tên cá nhân. "Hồ sơ vận chuyển Apple iPhone 15 Pro" bị đánh dấu là PERSON. "Samsung Galaxy Tab" và "triển khai Cisco Meraki" cũng vậy.

Thuật ngữ công ty có phần giống tên. Trong "kết quả Johnson Controls", từ "Johnson" bị đánh dấu là PERSON. "Danh mục đầu tư Goldman Sachs" kích hoạt lỗi tương tự.

Nhãn địa điểm kích hoạt phát hiện người. "Dự án Victoria Harbour" đánh dấu "Victoria" là PERSON. "Trung tâm Santiago" đánh dấu "Santiago" theo cách tương tự.

Mô hình thiếu ngữ cảnh để phân biệt "Apple" (công ty) với "Apple Smith" (một người). Khoảng cách đó là gốc rễ của hầu hết các dương tính giả. Văn bản tin tức dạy nó coi danh từ riêng là người hoặc địa điểm. Văn bản kinh doanh vi phạm quy tắc đó liên tục.

Ảnh Hưởng Downstream

Một công ty dữ liệu sử dụng Presidio để làm sạch khảo sát khách hàng trước khi chia sẻ. Một cuộc kiểm toán phát hiện bốn vấn đề. Thứ nhất, 40% khảo sát có nhãn sản phẩm bị xóa sai. Thứ hai, nhãn thành phố bị loại khỏi mọi phản hồi. Thứ ba, đề cập thương hiệu bị xóa khỏi bộ phân tích. Thứ tư, tình cảm về các sản phẩm cụ thể không thể đọc được.

Nhóm phân tích nhận được văn bản đã biên tập với tất cả tham chiếu sản phẩm bị xóa. Khảo sát ban đầu đã đặt tên iPhone Pro và bộ sạc Apple. Ý nghĩa đó biến mất.

Công ty không đang bảo vệ quyền riêng tư tốt hơn. Nó đang phá hỏng dữ liệu mà không đạt được tuân thủ. Presidio bị thay thế sau cuộc kiểm toán.

Xem tổng quan tuân thủ của chúng tôi để hiểu cách chất lượng phát hiện ảnh hưởng đến vị trí pháp lý của bạn.

Cách Tiếp Cận Tốt Hơn: Phát Hiện Hybrid

Vấn đề không riêng của Presidio. NER ở cấp độ token không có ngữ cảnh sẽ luôn có vấn đề này. Giải pháp là phát hiện nhận biết ngữ cảnh.

Tại sao transformer giúp ích: Một mô hình như XLM-RoBERTa đọc toàn bộ câu. "Apple thông báo thu nhập" → Apple là công ty. "Apple Smith gia nhập nhóm" → Apple là tên riêng. Ngữ cảnh cho bạn biết cái nào là cái nào.

Điều này cải thiện độ chính xác trong khi vẫn giữ recall cao. Xem so sánh bên dưới.

Cách tiếp cậnĐộ chính xácRecall
NER mặc định Presidio22,7%~85%
Chỉ dùng Regex~95%~40%
Hybrid (Regex + NLP + Transformer)~85%~80%

Cách tiếp cận hybrid đạt 85% độ chính xác. Nghĩa là tỷ lệ dương tính giả 15%. Tốt hơn nhiều so với 77,3%. Đối với tài liệu kinh doanh, khoảng cách này quan trọng.

Stack hybrid có bốn bước:

  1. Lớp Regex: Tìm ID có cấu trúc — email, số điện thoại, SSN, IBAN. Định dạng cố định, nên dương tính giả hiếm. Bước này chạy trước.

  2. Lớp NLP (spaCy): NER tiêu chuẩn cho người, công ty, và địa điểm. Recall cao, độ chính xác thấp hơn.

  3. Lớp Transformer (XLM-RoBERTa): Tái đánh giá mỗi kết quả NLP bằng ngữ cảnh toàn câu. "Apple" trong ngữ cảnh sản phẩm mất điểm thực thể. "John" trong văn bản khiếu nại được điểm cao hơn.

  4. Ngưỡng tin cậy: Chỉ các hit trên điểm đã đặt mới đi vào output. Tăng ngưỡng cho các trường hợp phân tích. Giảm xuống cho việc de-identification HIPAA.

Kết Quả Sau Khi Chuyển Đổi

Công ty phân tích chuyển sang phát hiện hybrid. Lợi ích rõ ràng. Dương tính giả nhãn sản phẩm giảm từ 40% xuống 3%. Dương tính giả nhãn thành phố giảm xuống gần bằng không. Recall nhận dạng thực sự ở mức ~82%, giảm nhẹ so với 85%, nhưng độ chính xác cải thiện nhiều.

Khảo sát trở nên có thể sử dụng được. "iPhone", "Apple", "Samsung", và "Chicago" vẫn còn trong văn bản. Tên khách hàng trong ngữ cảnh khiếu nại được xóa đúng cách.

Phát hiện hybrid cần nhiều tính toán hơn. Đối với công việc lớn, thời gian chạy dài hơn một chút. Đối với hầu hết các trường hợp sử dụng kinh doanh, lợi ích độ chính xác đáng giá. Công ty có thể chạy phân tích lại. Đó là toàn bộ mục đích của dữ liệu khảo sát.

Đọc về cách tiếp cận phát hiện của chúng tôi trong tổng quan bảo mật.

Khi Tỷ Lệ Dương Tính Giả Cao Là Chấp Nhận Được

Một số trường hợp ưu tiên recall hơn độ chính xác.

HIPAA Safe Harbor: Bỏ sót một true positive là vi phạm. Tỷ lệ dương tính giả 10% là ổn nếu PHI thực sự không bao giờ bị bỏ sót. Xóa quá mức an toàn hơn xóa thiếu.

Xem xét pháp lý: Bỏ sót một liên hệ đặc quyền có thể từ bỏ đặc quyền. Dương tính giả cần xem xét nhưng không tạo ra trách nhiệm pháp lý.

Phân tích kinh doanh: Xóa quá mức phá hỏng dữ liệu mà không đạt được lợi ích tuân thủ. Độ chính xác quan trọng hơn ở đây. Sử dụng cách tiếp cận hybrid với ngưỡng tin cậy cao. Điều này giữ lại nhãn thương hiệu và thuật ngữ thành phố trong output. Chỉ tên người thực mới bị xóa.

Sự cân bằng đúng phụ thuộc vào trường hợp sử dụng của bạn. Các công cụ cho phép bạn đặt ngưỡng cho bạn quyền kiểm soát. Không có mặc định nào phù hợp với mọi ngữ cảnh.

Xem FAQ của chúng tôi để biết các câu hỏi thường gặp về ngưỡng và chế độ phát hiện.

Kết Luận

Tỷ lệ độ chính xác 22,7% nghĩa là 3 trong 4 phát hiện là sai. Đối với tài liệu kinh doanh, điều đó làm output không thể sử dụng để phân tích. Nó cũng tạo ra sự tự tin giả tạo về tuân thủ.

Phát hiện hybrid khắc phục điều này. Nó kết hợp regex, NLP, và điểm transformer. Dữ liệu vẫn hữu ích sau khi ẩn danh hóa. Tên người thực được xóa. Nhãn thương hiệu, thuật ngữ thành phố, và định danh sản phẩm vẫn còn trong output.

Nếu bạn rời Presidio vì vấn đề dương tính giả, đây là con đường tiến lên. Không phải cấu hình mới của cùng một mô hình. Một kiến trúc khác được xây dựng cho ngữ cảnh tài liệu kinh doanh.

Nguồn

Priva PII Benchmark 2024: Đánh giá độ chính xác Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Các thực thể được hỗ trợ và kiến trúc mô hình. VERIFIED-EXTERNAL.

spaCy: Dữ liệu huấn luyện en_core_web_lg và giới hạn. VERIFIED-EXTERNAL.

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.