PII Đa Nền Tảng: Mac, Linux và Windows
Cán bộ bảo mật trên Mac, pháp lý trên Windows, kỹ sư dữ liệu trên Linux — tất cả xử lý cùng dữ liệu với các công cụ khác nhau. Đây là lý do phát hiện không phụ thuộc OS là bắt buộc.
PII Đa Ứng Dụng: Word, Chrome và AI
Dữ liệu khách hàng di chuyển từ nghiên cứu trình duyệt đến bản thảo Word rồi đến các lệnh Claude. Mỗi lần chuyển ngữ cảnh là một điểm rò rỉ tiềm ẩn.
GDPR Trong Nhật Ký Ứng Dụng: Tuân Thủ PII JSON
Nhật ký ứng dụng chứa địa chỉ email khách hàng, IP và số tài khoản mà Điều 5(1)(e) GDPR yêu cầu phải được quản lý.
Ẩn Danh Nhật Ký GDPR: Giữ Khả Năng Gỡ Lỗi
Nhật ký ứng dụng âm thầm tích lũy email người dùng, IP và số tài khoản. Đây là cách chia sẻ nhật ký với bên thứ ba, nhà thầu và nền tảng quan sát.
Phân Mảnh Định Dạng Tài Liệu Trong Công Cụ PII
Một phản hồi DSAR duy nhất có thể trải rộng qua hợp đồng Word, hóa đơn PDF, danh sách khách hàng Excel và xuất CSV. Sử dụng các công cụ khác nhau cho mỗi định dạng tạo ra.
Tại Sao Phát Hiện PII Nhị Phân Thất Bại Với Tuân Thủ
Cờ phát hiện/không phát hiện không đủ cho ngữ cảnh tuân thủ đòi hỏi phán đoán của con người. Chấm điểm tin cậy biến đổi ẩn danh hóa PII từ đoán mò thành kiểm soát tuân thủ có thể kiểm toán.
Presidio: Thiết Lập 3 Tuần vs. PII Được Quản Lý
Microsoft Presidio có hàng nghìn sao GitHub và hàng trăm vấn đề mở. Độ phức tạp thiết lập, chi phí tích hợp PySpark, và xung đột phụ thuộc Python đẩy thời gian triển khai lên 3–21 ngày.
Từ 6 Tuần Xuống 3 Ngày: Thiết Lập PII Được Quản Lý
Các nhóm SaaS y tế mất 6 tuần cho triển khai Presidio tự host trong production trước khi chuyển sang API được quản lý. API được quản lý thay thế toàn bộ quá trình triển khai đó.
Phát Hiện PII "Miễn Phí" Tốn €13K/Năm
Tự host Presidio cần 40–80 giờ thiết lập ban đầu và 5–10 giờ bảo trì hàng tháng. Với chi phí kỹ sư €100/giờ, tổng chi phí là hơn €13.200/năm.
Vấn Đề Độ Chính Xác 22,7% Của Presidio
Một benchmark năm 2024 cho thấy bộ nhận diện tên người của Presidio đạt độ chính xác 22,7% trong tài liệu kinh doanh — nghĩa là 77,3% phát hiện là dương tính giả.
Quyền Riêng Tư Có Thể Tái Tạo: Preset ML
Ẩn danh hóa dữ liệu đào tạo ML phải nhất quán và có thể tái tạo. Nếu nhà khoa học dữ liệu A và B áp dụng các loại thực thể khác nhau, tập dữ liệu đào tạo sẽ không nhất quán.
Pipeline GDPR: Ẩn danh hóa trước khi lưu trữ
Tag cột dbt không phải là tuân thủ GDPR. Dữ liệu khách hàng thô vào kho Snowflake của bạn không được che giấu trước khi các chính sách dựa trên tag áp dụng.
FOIA: Biên tập AI rút ngắn từ tuần xuống giờ
Chính phủ liên bang Mỹ ước tính chi 500 triệu USD cho xử lý FOIA năm 2024, chủ yếu là biên tập thủ công. ARPA-H đã tìm kiếm phần mềm biên tập AI để giải quyết tình trạng tồn đọng.
Ẩn danh hóa dữ liệu huấn luyện ML tuân thủ GDPR
GDPR hạn chế việc dùng dữ liệu cá nhân để huấn luyện ML ngoài mục đích thu thập ban đầu. Các nhóm khoa học dữ liệu dựa vào script Python tùy hứng tạo ra rủi ro tuân thủ nghiêm trọng.
FOIA: Nhanh Hơn 80% Với Che Giấu Hàng Loạt
Các cơ quan liên bang Mỹ nhận được 1,5 triệu yêu cầu FOIA trong năm tài chính 2024 với chi phí trung bình $482 mỗi yêu cầu. Che giấu PII hàng loạt giảm thời gian xử lý từ nhiều tháng xuống vài tuần.
Presidio vs. anonym.legal: 40 Giờ Cấu Hình hay 15 Phút?
Microsoft Presidio về mặt kỹ thuật là miễn phí, nhưng yêu cầu 40-80 giờ công việc kỹ thuật để triển khai đúng cách. anonym.legal cung cấp độ chính xác ML tương tự như dịch vụ được quản lý.
Bảo Mật Cách Ly Mạng: Ẩn Danh Hóa Ngoại Tuyến
Môi trường FedRAMP và ITAR có một điểm chung — đám mây không phải là lựa chọn. Giả danh hóa có thể đảo ngược theo Điều 4(5) GDPR.
Thuế cảnh báo sai trong công cụ phát hiện PII
GitHub issue #1071 của Presidio ghi lại các cảnh báo sai có hệ thống. Một nghiên cứu năm 2024 tìm thấy độ chính xác 22,7% trong các bộ dữ liệu doanh nghiệp đa ngôn ngữ.
PII tiếng Ả Rập & Do Thái: Công cụ phương Tây thất bại
GDPR không dừng lại ở eo biển Bosphorus. PII bằng tiếng Ả Rập và Do Thái trong các quy trình kinh doanh EU đang bị bỏ ngỏ một cách hệ thống. XLM-RoBERTa phát hiện đa ngôn ngữ và.
PII Đa Ngôn Ngữ: Công Cụ Đơn Ngữ Thất Bại
72% doanh nghiệp EU xử lý tài liệu bằng 3+ ngôn ngữ đồng thời. Tài liệu đa ngôn ngữ gây ra tỷ lệ bỏ sót PII cao hơn 45% trong các công cụ NER đơn ngữ.
Phát hiện PII tại APAC: tiếng Thái, Indonesia, Việt Nam
Một công ty fintech Singapore xử lý 500.000 cuộc trò chuyện hỗ trợ hàng tháng bằng 12 ngôn ngữ APAC phát hiện công cụ chỉ tiếng Anh của họ bỏ sót PII trong 60% cuộc hội thoại không phải tiếng Anh.
Dương tính giả: Tại sao chỉnh sửa ML thất bại
Nghiên cứu năm 2024 phát hiện Presidio tạo ra 13.536 phát hiện tên dương tính giả trên 4.434 mẫu — gắn cờ đại từ, tên tàu và địa danh là con người.
ISO 27001 + ZK rút ngắn thời gian đánh giá nhà cung cấp
Khảo sát năm 2025 cho thấy thiếu chứng nhận bảo mật được công nhận là lý do phổ biến thứ hai khiến CISO loại bỏ nhà cung cấp SaaS. Đây là những gì sự kết hợp ISO 27001 mang lại.
Kiến trúc zero-knowledge rút ngắn chu kỳ bán hàng
Bảng câu hỏi bảo mật cho nhà cung cấp doanh nghiệp trung bình hơn 100 câu hỏi. Kiến trúc zero-knowledge trả lời những câu hỏi khó nhất một cách dứt khoát — và thuyết phục khách hàng.
Vi phạm LastPass: bài học về bảo mật nhà cung cấp
LastPass đã mã hóa dữ liệu người dùng. Các vault vẫn bị trích xuất. Tiếp theo là 600.000+ hồ sơ Okta. Các sự cố bảo mật SaaS đã tăng 300% từ năm 2022 đến nay.
Đánh giá tuyên bố zero-knowledge sau LastPass
438 triệu đô la bị đánh cắp từ người dùng LastPass sau khi các vault 'được mã hóa' bị trích xuất. Tiếp theo là khoản phạt 1,2 triệu bảng Anh của ICO. Danh sách kiểm tra để đánh giá liệu nhà cung cấp có thực sự thực hiện những gì họ hứa.
LangChain CVE-2025-68664: PII rò rỉ qua pipeline RAG như thế nào
CVSS 9,3. Hàm serialization của LangChain phơi lộ biến môi trường và secret cho LLM do kẻ tấn công kiểm soát. Cách phát hiện và khắc phục rò rỉ PII.
Extension Ẩn danh hóa PII cho LibreOffice
Hướng dẫn từng bước để ẩn danh hóa PII trong tài liệu LibreOffice bằng extension anonym.legal.
LibreOffice so với Office: Xóa dữ liệu PII
So sánh chi tiết khả năng ẩn danh hóa PII trong LibreOffice (extension anonym.legal) so với Microsoft Office (Office Add-in).
PII air-gapped: Ưu tiên offline cho quốc phòng
41% chính sách bảo mật doanh nghiệp cấm xử lý đám mây đối với tài liệu mật.
Lựa chọn giữa biên tập có thể đảo ngược và vĩnh viễn
GDPR phân biệt ẩn danh hóa và giả danh hóa. Tòa án cần bản gốc. Nghiên cứu cần tái xác định. Tìm hiểu khi nào sử dụng từng phương pháp.
NER đa ngôn ngữ: Mô hình tiếng Anh thất bại với tiếng Ả Rập
Mô hình NER được đào tạo trên tiếng Anh đạt độ chính xác 85-92%. Tiếng Ả Rập và tiếng Trung? Thường chỉ 50-70%. Tìm hiểu về những thách thức kỹ thuật và cách xây dựng hệ thống thực sự đa ngôn ngữ.
Sử Dụng Claude & ChatGPT Mà Không Rò Rỉ PII
Hướng dẫn dành cho nhà phát triển về việc sử dụng trợ lý AI an toàn. Thiết lập tích hợp MCP Server để bảo vệ PII minh bạch trong Claude Desktop, Cursor và VS Code.
Bắt đầu Bảo vệ Dữ liệu của Bạn Ngày Hôm Nay
285+ loại thực thể, 48 ngôn ngữ, bảo mật cấp doanh nghiệp với giá khởi nghiệp.
About this page
We update this page when our platform or the law changes.
Read our founder note for how we work.
Each change shows up in the timestamp at the top.
Related reading
- Common questions
- Glossary
- How tokens work
- Security posture
- Where we comply
- What we detect
- Case studies
- Release notes
We follow these rules
- GDPR (EU 2016/679).
- ISO/IEC 27001:2022.
- NIS2 (EU 2022/2555).
- HIPAA safe harbor under 45 CFR § 164.514(b)(2).
Our promise
We do not sell your data.
We do not train models on your text.
We store your files in Germany.
You can delete your account at any time.
You own your work.
Where we run
Our servers live in Falkenstein, Germany.
We use Hetzner. They hold ISO 27001 certification.
All data stays in the EU.
Backups run every day.
Need help?
Email support@anonym.legal.
We reply within one business day.
How we test
We run a full check suite on every release.
Each surface gets its own sweep script and report.
Human reviewers spot-check the output each week.
We track recall and precision on a labelled set.
Bad runs block the deploy.
What we never do
- We never sell your information to third parties.
- We never train models on what you upload.
- We never keep your work after you delete it.
- We never share keys with any outside firm.
- We never run ads inside the product.
Plans in plain words
We sell credits, not seats.
One credit covers one short job.
Long jobs use a few credits each.
You can top up at any time.
Unused credits roll over each month.
Read the plans page for current rates.
Who built this
A small team of engineers and lawyers built this.
We ship from Europe and work in the open.
Our founder note spells out why we started.
Where to start
- Open the web app and try a sample file.
- Learn how credits get counted.
- See current plans and limits.
- Meet the team behind the product.
How the parts fit
A browser add-on cleans text inside Chrome.
A Word plug-in handles drafts in Office.
A small desktop tool works on whole folders.
An agent protocol link feeds large models safely.
All four share one core engine and one rule set.
Words from our team
We started this work after a lunch about cookies.
One friend kept getting odd ads on her phone.
We asked why a court file leaked through a draft.
We sketched the first build on a napkin that week.
By month three we had a tiny demo for a friend.
She used it on her first case the next day.
Common questions we hear
Can the tool read scanned PDFs? Yes, with OCR.
Does it work on long files? Yes, in small chunks.
Can I roll my own rule set? Yes, save it as a preset.
Does it run offline? The desktop build runs offline.
Do you keep my files? No, the cloud build wipes after each run.
Will it learn from my work? No, we never train on inputs.
A short tour of the workflow
Upload a file or paste a snippet of prose.
Pick the entities you want gone from the draft.
Choose a method: replace, mask, hash, encrypt, or redact.
Press run and watch the side panel show each hit.
Skim the result and tweak any rule that misfired.
Save the cleaned file or send it to a teammate.