Tất cả Bài viếtKỹ Thuật

Kỹ Thuật

Khám phá sâu về phát hiện PII, NER và công nghệ ẩn danh

33 bài viết

Kỹ Thuật

PII Đa Nền Tảng: Mac, Linux và Windows

Cán bộ bảo mật trên Mac, pháp lý trên Windows, kỹ sư dữ liệu trên Linux — tất cả xử lý cùng dữ liệu với các công cụ khác nhau. Đây là lý do phát hiện không phụ thuộc OS là bắt buộc.

July 12, 20266 phút
Kỹ Thuật

PII Đa Ứng Dụng: Word, Chrome và AI

Dữ liệu khách hàng di chuyển từ nghiên cứu trình duyệt đến bản thảo Word rồi đến các lệnh Claude. Mỗi lần chuyển ngữ cảnh là một điểm rò rỉ tiềm ẩn.

July 8, 20266 phút
Kỹ Thuật

GDPR Trong Nhật Ký Ứng Dụng: Tuân Thủ PII JSON

Nhật ký ứng dụng chứa địa chỉ email khách hàng, IP và số tài khoản mà Điều 5(1)(e) GDPR yêu cầu phải được quản lý.

June 30, 20266 phút
Kỹ Thuật

Ẩn Danh Nhật Ký GDPR: Giữ Khả Năng Gỡ Lỗi

Nhật ký ứng dụng âm thầm tích lũy email người dùng, IP và số tài khoản. Đây là cách chia sẻ nhật ký với bên thứ ba, nhà thầu và nền tảng quan sát.

June 27, 20267 phút
Kỹ Thuật

Phân Mảnh Định Dạng Tài Liệu Trong Công Cụ PII

Một phản hồi DSAR duy nhất có thể trải rộng qua hợp đồng Word, hóa đơn PDF, danh sách khách hàng Excel và xuất CSV. Sử dụng các công cụ khác nhau cho mỗi định dạng tạo ra.

June 25, 20267 phút
Kỹ Thuật

Tại Sao Phát Hiện PII Nhị Phân Thất Bại Với Tuân Thủ

Cờ phát hiện/không phát hiện không đủ cho ngữ cảnh tuân thủ đòi hỏi phán đoán của con người. Chấm điểm tin cậy biến đổi ẩn danh hóa PII từ đoán mò thành kiểm soát tuân thủ có thể kiểm toán.

June 21, 20268 phút
Kỹ Thuật

Presidio: Thiết Lập 3 Tuần vs. PII Được Quản Lý

Microsoft Presidio có hàng nghìn sao GitHub và hàng trăm vấn đề mở. Độ phức tạp thiết lập, chi phí tích hợp PySpark, và xung đột phụ thuộc Python đẩy thời gian triển khai lên 3–21 ngày.

June 15, 20266 phút
Kỹ Thuật

Từ 6 Tuần Xuống 3 Ngày: Thiết Lập PII Được Quản Lý

Các nhóm SaaS y tế mất 6 tuần cho triển khai Presidio tự host trong production trước khi chuyển sang API được quản lý. API được quản lý thay thế toàn bộ quá trình triển khai đó.

June 14, 20267 phút
Kỹ Thuật

Phát Hiện PII "Miễn Phí" Tốn €13K/Năm

Tự host Presidio cần 40–80 giờ thiết lập ban đầu và 5–10 giờ bảo trì hàng tháng. Với chi phí kỹ sư €100/giờ, tổng chi phí là hơn €13.200/năm.

June 12, 20267 phút
Kỹ Thuật

Vấn Đề Độ Chính Xác 22,7% Của Presidio

Một benchmark năm 2024 cho thấy bộ nhận diện tên người của Presidio đạt độ chính xác 22,7% trong tài liệu kinh doanh — nghĩa là 77,3% phát hiện là dương tính giả.

June 11, 20267 phút
Kỹ Thuật

Quyền Riêng Tư Có Thể Tái Tạo: Preset ML

Ẩn danh hóa dữ liệu đào tạo ML phải nhất quán và có thể tái tạo. Nếu nhà khoa học dữ liệu A và B áp dụng các loại thực thể khác nhau, tập dữ liệu đào tạo sẽ không nhất quán.

June 7, 20266 phút
Kỹ Thuật

Pipeline GDPR: Ẩn danh hóa trước khi lưu trữ

Tag cột dbt không phải là tuân thủ GDPR. Dữ liệu khách hàng thô vào kho Snowflake của bạn không được che giấu trước khi các chính sách dựa trên tag áp dụng.

May 29, 20268 phút
Kỹ Thuật

FOIA: Biên tập AI rút ngắn từ tuần xuống giờ

Chính phủ liên bang Mỹ ước tính chi 500 triệu USD cho xử lý FOIA năm 2024, chủ yếu là biên tập thủ công. ARPA-H đã tìm kiếm phần mềm biên tập AI để giải quyết tình trạng tồn đọng.

May 28, 20268 phút
Kỹ Thuật

Ẩn danh hóa dữ liệu huấn luyện ML tuân thủ GDPR

GDPR hạn chế việc dùng dữ liệu cá nhân để huấn luyện ML ngoài mục đích thu thập ban đầu. Các nhóm khoa học dữ liệu dựa vào script Python tùy hứng tạo ra rủi ro tuân thủ nghiêm trọng.

May 27, 20267 phút
Kỹ Thuật

FOIA: Nhanh Hơn 80% Với Che Giấu Hàng Loạt

Các cơ quan liên bang Mỹ nhận được 1,5 triệu yêu cầu FOIA trong năm tài chính 2024 với chi phí trung bình $482 mỗi yêu cầu. Che giấu PII hàng loạt giảm thời gian xử lý từ nhiều tháng xuống vài tuần.

May 23, 20269 phút
Kỹ Thuật

Presidio vs. anonym.legal: 40 Giờ Cấu Hình hay 15 Phút?

Microsoft Presidio về mặt kỹ thuật là miễn phí, nhưng yêu cầu 40-80 giờ công việc kỹ thuật để triển khai đúng cách. anonym.legal cung cấp độ chính xác ML tương tự như dịch vụ được quản lý.

May 18, 20268 phút
Kỹ Thuật

Bảo Mật Cách Ly Mạng: Ẩn Danh Hóa Ngoại Tuyến

Môi trường FedRAMP và ITAR có một điểm chung — đám mây không phải là lựa chọn. Giả danh hóa có thể đảo ngược theo Điều 4(5) GDPR.

April 13, 20269 phút
Kỹ Thuật

Thuế cảnh báo sai trong công cụ phát hiện PII

GitHub issue #1071 của Presidio ghi lại các cảnh báo sai có hệ thống. Một nghiên cứu năm 2024 tìm thấy độ chính xác 22,7% trong các bộ dữ liệu doanh nghiệp đa ngôn ngữ.

April 3, 20268 phút
Kỹ Thuật

PII tiếng Ả Rập & Do Thái: Công cụ phương Tây thất bại

GDPR không dừng lại ở eo biển Bosphorus. PII bằng tiếng Ả Rập và Do Thái trong các quy trình kinh doanh EU đang bị bỏ ngỏ một cách hệ thống. XLM-RoBERTa phát hiện đa ngôn ngữ và.

April 1, 20268 phút
Kỹ Thuật

PII Đa Ngôn Ngữ: Công Cụ Đơn Ngữ Thất Bại

72% doanh nghiệp EU xử lý tài liệu bằng 3+ ngôn ngữ đồng thời. Tài liệu đa ngôn ngữ gây ra tỷ lệ bỏ sót PII cao hơn 45% trong các công cụ NER đơn ngữ.

March 26, 20267 phút
Kỹ Thuật

Phát hiện PII tại APAC: tiếng Thái, Indonesia, Việt Nam

Một công ty fintech Singapore xử lý 500.000 cuộc trò chuyện hỗ trợ hàng tháng bằng 12 ngôn ngữ APAC phát hiện công cụ chỉ tiếng Anh của họ bỏ sót PII trong 60% cuộc hội thoại không phải tiếng Anh.

March 24, 20267 phút
Kỹ Thuật

Dương tính giả: Tại sao chỉnh sửa ML thất bại

Nghiên cứu năm 2024 phát hiện Presidio tạo ra 13.536 phát hiện tên dương tính giả trên 4.434 mẫu — gắn cờ đại từ, tên tàu và địa danh là con người.

March 23, 20268 phút
Kỹ Thuật

ISO 27001 + ZK rút ngắn thời gian đánh giá nhà cung cấp

Khảo sát năm 2025 cho thấy thiếu chứng nhận bảo mật được công nhận là lý do phổ biến thứ hai khiến CISO loại bỏ nhà cung cấp SaaS. Đây là những gì sự kết hợp ISO 27001 mang lại.

March 19, 20267 phút
Kỹ Thuật

Kiến trúc zero-knowledge rút ngắn chu kỳ bán hàng

Bảng câu hỏi bảo mật cho nhà cung cấp doanh nghiệp trung bình hơn 100 câu hỏi. Kiến trúc zero-knowledge trả lời những câu hỏi khó nhất một cách dứt khoát — và thuyết phục khách hàng.

March 18, 20267 phút
Kỹ Thuật

Vi phạm LastPass: bài học về bảo mật nhà cung cấp

LastPass đã mã hóa dữ liệu người dùng. Các vault vẫn bị trích xuất. Tiếp theo là 600.000+ hồ sơ Okta. Các sự cố bảo mật SaaS đã tăng 300% từ năm 2022 đến nay.

March 17, 20268 phút
Kỹ Thuật

Đánh giá tuyên bố zero-knowledge sau LastPass

438 triệu đô la bị đánh cắp từ người dùng LastPass sau khi các vault 'được mã hóa' bị trích xuất. Tiếp theo là khoản phạt 1,2 triệu bảng Anh của ICO. Danh sách kiểm tra để đánh giá liệu nhà cung cấp có thực sự thực hiện những gì họ hứa.

March 16, 20268 phút
Kỹ Thuật

LangChain CVE-2025-68664: PII rò rỉ qua pipeline RAG như thế nào

CVSS 9,3. Hàm serialization của LangChain phơi lộ biến môi trường và secret cho LLM do kẻ tấn công kiểm soát. Cách phát hiện và khắc phục rò rỉ PII.

March 16, 20268 phút
Kỹ Thuật

Extension Ẩn danh hóa PII cho LibreOffice

Hướng dẫn từng bước để ẩn danh hóa PII trong tài liệu LibreOffice bằng extension anonym.legal.

March 10, 202610 phút
Kỹ Thuật

LibreOffice so với Office: Xóa dữ liệu PII

So sánh chi tiết khả năng ẩn danh hóa PII trong LibreOffice (extension anonym.legal) so với Microsoft Office (Office Add-in).

March 10, 20268 phút
Kỹ Thuật

PII air-gapped: Ưu tiên offline cho quốc phòng

41% chính sách bảo mật doanh nghiệp cấm xử lý đám mây đối với tài liệu mật.

March 3, 20268 phút
Kỹ Thuật

Lựa chọn giữa biên tập có thể đảo ngược và vĩnh viễn

GDPR phân biệt ẩn danh hóa và giả danh hóa. Tòa án cần bản gốc. Nghiên cứu cần tái xác định. Tìm hiểu khi nào sử dụng từng phương pháp.

February 27, 20267 phút
Kỹ Thuật

NER đa ngôn ngữ: Mô hình tiếng Anh thất bại với tiếng Ả Rập

Mô hình NER được đào tạo trên tiếng Anh đạt độ chính xác 85-92%. Tiếng Ả Rập và tiếng Trung? Thường chỉ 50-70%. Tìm hiểu về những thách thức kỹ thuật và cách xây dựng hệ thống thực sự đa ngôn ngữ.

February 26, 20268 phút
Kỹ Thuật

Sử Dụng Claude & ChatGPT Mà Không Rò Rỉ PII

Hướng dẫn dành cho nhà phát triển về việc sử dụng trợ lý AI an toàn. Thiết lập tích hợp MCP Server để bảo vệ PII minh bạch trong Claude Desktop, Cursor và VS Code.

February 22, 20267 phút

Bắt đầu Bảo vệ Dữ liệu của Bạn Ngày Hôm Nay

285+ loại thực thể, 48 ngôn ngữ, bảo mật cấp doanh nghiệp với giá khởi nghiệp.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.