By · Last updated 2026-03-03

Quay lại BlogKỹ Thuật

PII air-gapped: Ưu tiên offline cho quốc phòng

41% chính sách bảo mật doanh nghiệp cấm xử lý đám mây đối với tài liệu mật.

March 3, 20268 phút đọc
offlineair-gapdesktopITARGDPRgovernmentdefenselocal processing

Khi mạng không có lối thoát

Một nhà khoa học dữ liệu làm việc tại một công ty quốc phòng. Cô ấy có 3.000 hồ sơ nhân sự. Cô cần xóa tên, Số An sinh xã hội và cấp độ thông quan. Sau đó cô có thể chia sẻ dữ liệu với một đối tác nghiên cứu theo thỏa thuận CUI.

Mạng của cô không có internet. Theo thiết kế.

Cô kiểm tra mọi công cụ dựa trên web mà cô có thể tìm thấy. Mỗi công cụ đều gửi dữ liệu đến máy chủ bên ngoài. Mọi nền tảng đám mây đều cần tài khoản và kết nối trực tiếp. Ngay cả các công cụ "tại chỗ" thường gọi đến máy chủ cấp phép từ xa.

Đây là vấn đề triển khai air-gapped. Nó ảnh hưởng đến nhiều nhóm hơn hầu hết mọi người nghĩ.

Ai cần xóa PII offline

Các công ty quốc phòng và cơ quan chính phủ gặp phải điều này thường xuyên nhất. Chương trình FedRAMP của DISA yêu cầu dữ liệu ở trong ranh giới mạng được phê duyệt. ITAR giới hạn dữ liệu kỹ thuật cho các hệ thống do Mỹ kiểm soát. Các mạng như JWICS và SIPRNet bị cắt đứt vật lý theo thiết kế.

Nhưng nhu cầu offline vượt xa các địa điểm được phân loại:

Bệnh viện có mạng phân đoạn. Hệ thống hình ảnh PACS, nền tảng EHR và cơ sở dữ liệu nghiên cứu thường nằm trên các mạng không có internet theo chính sách.

Sàn giao dịch và trung tâm thanh toán bù trừ. Hệ thống giao dịch độc quyền và hệ thống kết nối SWIFT sử dụng ngắt kết nối mạng nghiêm ngặt.

Hệ thống kiểm soát công nghiệp. Mạng SCADA và cơ sở hạ tầng quan trọng chạy với air gap như một biện pháp bảo mật cốt lõi. Việc cứng hóa sau Stuxnet đã biến điều này thành tiêu chuẩn.

Quy tắc dữ liệu châu Âu. Landesdatenschutzgesetze của Đức và các luật EU tương tự yêu cầu xử lý dữ liệu cục bộ cho hồ sơ chính phủ và sức khỏe nhạy cảm. Khoản phạt GDPR €530 triệu của TikTok đến vào tháng 5 năm 2025. Nó bao gồm việc chuyển dữ liệu sang Trung Quốc. Khoản phạt đó đã thúc đẩy nhiều nhóm hơn hướng tới các công cụ cục bộ. Xem tổng quan tuân thủ của chúng tôi về các quy tắc chuyển GDPR áp dụng.

Tại sao công cụ đám mây thất bại trong mạng air-gapped

Hầu hết các công cụ xóa dữ liệu theo mô hình SaaS:

Thiết bị người dùng → HTTPS → API nhà cung cấp → Mô hình NLP → Phản hồi → Thiết bị người dùng

Thiết kế này cần quyền truy cập internet tại thiết bị xử lý. Nó cần sự tin tưởng vào máy chủ của nhà cung cấp. Nó có nghĩa là dữ liệu vượt qua các mạng bên ngoài.

Trên mạng air-gapped, bước một là điều không thể về mặt vật lý. Đối với các môi trường được quản lý, bước hai đến bốn có thể vi phạm quy tắc tuân thủ.

Presidio tự lưu trữ là giải pháp dự phòng phổ biến. Nhưng nó cần kỹ năng Docker và thiết lập Python. Nó cũng cần tải xuống mô hình spaCy, yêu cầu quyền truy cập internet. Và nó cần hỗ trợ IT liên tục. Hầu hết các nhóm thiếu tất cả những điều này.

Khoảng cách giữa sự tiện lợi của đám mây và sự phức tạp tự lưu trữ là chính xác những gì các công cụ desktop cục bộ lấp đầy.

Cách xóa PII cục bộ hoạt động

Một công cụ offline tốt đi kèm với mọi thứ cần thiết:

Mô hình NLP được đóng gói. Mô hình spaCy (40–80 MB mỗi cái) và mô hình transformer để phát hiện thực thể được đặt tên là một phần của trình cài đặt. Không cần tải xuống khi chạy.

Quy trình phát hiện cục bộ. Regex, NLP và ML đều chạy trên CPU cục bộ — hoặc GPU nếu có. Công cụ dựa trên Presidio bên trong anonym.legal không thực hiện cuộc gọi mạng nào trong quá trình chạy.

Vault cục bộ được mã hóa. Cấu hình, cài đặt sẵn và khóa được lưu trữ cục bộ. Vault sử dụng mã hóa AES-256-GCM và phái sinh khóa Argon2id. Không đồng bộ đám mây. Không sao lưu từ xa. Vault ở lại trên thiết bị.

I/O tệp cục bộ. Tệp đầu vào đến từ lưu trữ cục bộ. Tệp đầu ra trở lại lưu trữ cục bộ. Không có dữ liệu nào vượt qua bất kỳ giao diện mạng nào.

Bề mặt tấn công nhỏ. Ứng dụng Desktop sử dụng Tauri 2.0 (dựa trên Rust). Tauri có bề mặt tấn công nhỏ hơn nhiều so với các công cụ Electron (dựa trên Chromium). Nhị phân của nó nhỏ hơn khoảng một phần mười kích thước. Nó cũng gọi ít API hệ điều hành hơn theo mặc định.

Ba kịch bản tuân thủ thực tế

Tài liệu ITAR — 500 tệp

Một công ty quốc phòng cần chia sẻ tài liệu kỹ thuật với đối tác nước ngoài theo ngoại lệ cấp phép. Các tệp chứa tên người Mỹ và dữ liệu nhân sự. Cả hai phải được xóa trước.

Nhu cầu chính: xử lý chỉ trên các máy trạm đã được thông quan. Không có dữ liệu nào được gửi ra ngoài mạng đã được thông quan. Nhật ký kiểm toán cho thấy công việc đã được thực hiện. Hỗ trợ hàng loạt cho 500+ tệp.

Ứng dụng Desktop xử lý tất cả 500+ tệp DOCX cục bộ theo chế độ hàng loạt. Không có cuộc gọi mạng nào được thực hiện trong quá trình chạy. Nhật ký kiểm toán ở lại trong vault cục bộ. Đầu ra đáp ứng nhu cầu ngoại lệ cấp phép ITAR.

Cơ quan liên bang Đức — Hồ sơ khiếu nại

Một cơ quan liên bang Đức phải xóa dữ liệu cá nhân khỏi hồ sơ khiếu nại của công dân. Sau đó gửi hồ sơ đến một viện nghiên cứu. Hướng dẫn BfDI cấm xử lý trên các hệ thống không phải của chính phủ.

Ứng dụng Desktop chạy trên các máy trạm Windows 11 của cơ quan. Tất cả xử lý là cục bộ. Nhóm bảo mật IT xác nhận điều này bằng giám sát lưu lượng — không có kết nối bên ngoài nào trong quá trình chạy.

Nghiên cứu bệnh viện — De-ID EHR

Một nhóm nghiên cứu bệnh viện cần xóa hồ sơ bệnh nhân cho thử nghiệm lâm sàng. HIPAA Safe Harbor yêu cầu xóa 18 loại định danh. Mạng lâm sàng không có quyền truy cập internet.

Ứng dụng Desktop xử lý hàng loạt các xuất EHR ở định dạng CSV và JSON. Nhân viên phụ trách quyền riêng tư xem xét đầu ra so với các quy tắc Safe Harbor trước khi tập dữ liệu đến với các đối tác nghiên cứu.

Tìm gì trong công cụ offline

Khả năngTại sao quan trọng
Hoàn toàn offline sau khi cài đặtKhông phụ thuộc internet trong quá trình xử lý
Mô hình NLP được đóng góiKhông cần bước tải xuống
Xử lý hàng loạtXử lý khối lượng lớn mà không cần thủ công
Vault cục bộ được mã hóaLưu trữ an toàn cấu hình và khóa
Nhật ký kiểm toánHồ sơ cần thiết cho đánh giá tuân thủ
Hỗ trợ Windows, macOS, LinuxBao phủ các loại máy trạm được phân loại
Tùy chọn không telemetryNgăn dữ liệu rời đi qua telemetry
Hỗ trợ định dạng tệpDOCX, PDF, TXT, CSV, JSON, Excel

Quy tắc dữ liệu thúc đẩy các nhóm hướng tới công cụ cục bộ

Khoản phạt €530 triệu của TikTok đã kích hoạt làn sóng phạt tiền rộng hơn. Các nhóm EU sử dụng công cụ đám mây giờ đặt ra câu hỏi mới. Việc xử lý trên máy chủ của nhà cung cấp có đáp ứng Chương V GDPR và luật dữ liệu quốc gia không?

Câu trả lời rõ ràng nhất cho "dữ liệu của bạn đi đâu?" là thế này: không đâu — nó không bao giờ rời khỏi thiết bị. Xử lý cục bộ loại bỏ hoàn toàn câu hỏi chuyển GDPR.

Đối với các nhóm Đức, cách đọc nghiêm ngặt của DSGVO về Điều 44–46 khiến xử lý cục bộ trở thành lựa chọn thông minh. Điều này áp dụng ngay cả khi không có hạn chế mạng nghiêm ngặt. Tổng quan bảo mật của chúng tôi giải thích cách xử lý cục bộ cắt đứt chuỗi dữ liệu bên thứ ba.

Ghi chú triển khai thực tế

Cài đặt trên hệ thống air-gapped. Trình cài đặt — Windows .exe hoặc .msi, macOS .dmg, Linux .AppImage hoặc .deb — chuyển đến mạng air-gapped qua USB hoặc chuyển tệp an toàn. Không cần internet sau khi cài đặt.

Hỗ trợ ngôn ngữ. 24 mô hình chuyên ngôn ngữ đi kèm với ứng dụng. Bộ đầy đủ có sẵn offline mà không cần tải xuống thêm.

Yêu cầu phần cứng. Quy trình NLP chạy trên các máy trạm hiện đại mà không cần GPU. Xử lý hàng loạt 1.000 tài liệu thường mất 5–15 phút. Tốc độ phụ thuộc vào kích thước tài liệu và tốc độ CPU.

Thiết lập cấp phép offline. Đối với các mạng nơi máy chủ cấp phép không thể tiếp cận, thiết lập cấp phép offline có sẵn.

Khi Air-gapping không phải là sự phù hợp đúng

Hệ thống air-gapped giải quyết các vấn đề cụ thể. Chúng cũng tạo thêm gánh nặng thực sự.

Ma sát cập nhật. Giữ các mô hình và phần mềm hiện tại cần các bước thủ công. Các nhóm bị tụt lại có thể bỏ lỡ các mẫu PII mới.

Chi phí kết nối. Hệ thống air-gapped không thể kết nối với công cụ SIEM đám mây hay bảng điều khiển kiểm toán từ xa. Các giải pháp data-diode tùy chỉnh là cần thiết. Điều này tăng chi phí.

Đánh đổi độ chính xác. Các công cụ đám mây cập nhật dữ liệu huấn luyện liên tục. Các mô hình offline là ảnh chụp. Chúng có thể tụt hậu so với các mẫu ngôn ngữ mới theo thời gian.

Không cần thiết cho mọi mô hình mối đe dọa. Các nhóm không có nhiệm vụ chính phủ, sức khỏe hoặc pháp lý có thể thấy các công cụ đám mây thực tế hơn. Mã hóa mạnh, kiểm toán SOC 2 Loại II và thỏa thuận xử lý dữ liệu bao gồm hầu hết các trường hợp. Air-gapping chỉ có giá trị khi mô hình mối đe dọa thực sự bao gồm việc đánh cắp dữ liệu dựa trên mạng bởi đối thủ có kỹ năng.

Đối với hầu hết doanh nghiệp vừa và nhỏ và các nhóm doanh nghiệp tiêu chuẩn, mã hóa mạnh trong quá trình truyền và lưu trữ cung cấp sự bảo vệ đầy đủ. Thêm kiểm soát hợp đồng vững chắc và bạn bao phủ hầu hết các trường hợp — mà không có chi phí của air-gapping đầy đủ. Xem FAQ của chúng tôi để biết thêm về việc chọn mô hình triển khai phù hợp.


Ứng dụng Desktop anonym.legal (Windows, macOS, Linux) xử lý PII hoàn toàn cục bộ với các mô hình NLP được đóng gói. Không cần kết nối internet sau khi cài đặt. Xử lý hàng loạt hỗ trợ 1–5.000 tệp mỗi lần chạy tùy thuộc vào cấp gói.

Nguồn tham khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.