By · Last updated 2026-03-03

Kembali ke BlogTeknis

PII Air-Gapped: Anonimisasi Offline untuk Pertahanan

41% kebijakan keamanan enterprise melarang pemrosesan cloud untuk dokumen rahasia. Inilah solusi offline-first untuk lingkungan terisolasi.

March 3, 20268 menit baca
offlineair-gapdesktopITARGDPRgovernmentdefenselocal processing

Masalah yang Tidak Dapat Diselesaikan Alat Cloud

Seorang ilmuwan data di perusahaan kontraktor pertahanan memiliki 3.000 rekam personel. Mereka perlu menganonimkan nama, Nomor Jaminan Sosial, dan tingkat izin keamanan sebelum berbagi dataset dengan mitra penelitian universitas berdasarkan perjanjian Controlled Unclassified Information (CUI).

Jaringan mereka tidak memiliki akses internet. Memang dirancang seperti itu.

Setiap alat berbasis web yang mereka evaluasi memerlukan pengiriman data ke API eksternal. Setiap platform SaaS enterprise memerlukan pendaftaran akun dan konektivitas cloud. Bahkan alat "on-premises" seringkali membutuhkan server lisensi yang melakukan panggilan internet berkala.

Inilah masalah deployment air-gapped — dan ini mempengaruhi jauh lebih banyak organisasi daripada yang dibayangkan dalam kerangka "pemerintah rahasia" yang sempit.

Siapa yang Membutuhkan Pemrosesan Offline-First

Kontraktor pertahanan dan lembaga pemerintah adalah kategori paling jelas. Persyaratan FedRAMP DISA mengamanatkan pemrosesan data dalam batas yang diotorisasi. ITAR membatasi penanganan data teknis ke infrastruktur yang dikendalikan AS. Jaringan komunitas intelijen (JWICS, SIPRNet) terisolasi secara fisik by design.

Namun persyaratan offline-first meluas jauh melampaui lingkungan rahasia:

Sistem layanan kesehatan dengan segmentasi jaringan: Jaringan rumah sakit mengisolasi sistem klinis dari jaringan akses umum. Sistem PACS (pencitraan medis), sistem EHR yang berjalan di jaringan tersegmentasi, dan database penelitian klinis mungkin tidak memiliki konektivitas internet berdasarkan kebijakan.

Layanan keuangan dengan isolasi lantai perdagangan: Lingkungan perdagangan proprietary, jaringan kliring house tertentu, dan infrastruktur yang terhubung ke SWIFT beroperasi dengan isolasi jaringan yang ketat.

Sistem kontrol industri: Jaringan SCADA, sistem kontrol manufaktur, dan infrastruktur kritis beroperasi dengan air gap atau mendekati air gap sebagai langkah keamanan (penguatan pasca-Stuxnet).

Persyaratan kedaulatan data Eropa: Landesdatenschutzgesetze Jerman yang ketat dan undang-undang nasional sebanding di UE semakin mewajibkan pemrosesan lokal untuk data pemerintah dan layanan kesehatan yang sensitif. Denda €530 juta TikTok (Mei 2025) karena transfer data UE ke China telah mempercepat tren ini.

Mengapa Arsitektur Cloud Gagal untuk Deployment Air-Gapped

Sebagian besar alat anonimisasi enterprise dirancang sebagai platform SaaS:

Perangkat Pengguna → HTTPS → API Vendor → Model NLP → Respons → Perangkat Pengguna

Arsitektur ini memerlukan:

  1. Konektivitas internet dari perangkat pemrosesan
  2. Kepercayaan pada infrastruktur API vendor
  3. Penerimaan bahwa data melintasi jaringan eksternal
  4. Ketergantungan pada ketersediaan vendor dan perubahan harga

Untuk lingkungan air-gapped, langkah 1 adalah kemustahilan fisik. Untuk lingkungan yang diregulasi, langkah 2-4 masing-masing dapat mewakili pelanggaran kepatuhan.

Presidio yang di-host sendiri adalah alternatif umum, tetapi memerlukan:

  • Keahlian Docker untuk deployment
  • Manajemen lingkungan Python
  • Unduhan model spaCy (memerlukan internet)
  • Pemeliharaan berkelanjutan saat model dan dependensi diperbarui
  • Sumber daya DevOps yang kebanyakan tim tidak miliki

Kesenjangan ini — antara kenyamanan SaaS dan kompleksitas self-hosted — adalah persis yang ditangani oleh alat desktop-first offline.

Arsitektur Teknis Anonimisasi PII Offline-First

Alat anonimisasi PII offline yang dibangun dengan benar menyertakan semua yang diperlukan untuk pemrosesan:

1. Model NLP yang sudah dibundel Model bahasa spaCy (rata-rata 40-80MB masing-masing), model transformer untuk pengenalan entitas bernama, dan model deteksi bahasa dibundel ke dalam installer aplikasi. Tidak diperlukan langkah unduhan saat pemrosesan.

2. Pipeline pemrosesan lokal Seluruh pipeline deteksi regex + NLP + ML berjalan pada CPU lokal (dan opsional GPU). Mesin deteksi berbasis Presidio yang digunakan anonym.legal tidak melakukan panggilan jaringan selama pemrosesan.

3. Brankas lokal terenkripsi Konfigurasi, preset, dan kunci enkripsi disimpan di brankas lokal terenkripsi (AES-256-GCM + Argon2id). Tidak ada sinkronisasi cloud. Tidak ada cadangan kunci jarak jauh. Brankas hanya ada di perangkat lokal.

4. I/O file lokal File input dibaca dari penyimpanan lokal; file output ditulis ke penyimpanan lokal. Tidak ada data yang melintasi antarmuka jaringan apapun.

5. Permukaan serangan minimal Tauri 2.0 (berbasis Rust) memberikan permukaan serangan yang jauh lebih kecil dibandingkan alternatif berbasis Electron (Chromium). Aplikasi Tauri memiliki ukuran biner ~10x lebih kecil dan akses ke lebih sedikit API OS secara default.

Kasus Penggunaan Kepatuhan

Anonimisasi Data Teknis ITAR

Sebuah kontraktor pertahanan perlu berbagi dokumentasi teknis dengan mitra asing berdasarkan pengecualian lisensi. Dokumen tersebut mengandung nama orang AS dan data personel yang harus dianonimkan sebelum pengecualian lisensi ITAR berlaku.

Persyaratan:

  • Pemrosesan hanya di workstation yang sudah dibersihkan (tidak ada cloud)
  • Tidak ada transmisi data di luar lingkungan yang diizinkan
  • Jejak audit yang membuktikan anonimisasi diterapkan
  • Pemrosesan batch untuk 500+ dokumen

Aplikasi Desktop anonym.legal memproses semua 500+ file DOCX secara lokal menggunakan mode batch. Tidak ada panggilan jaringan yang dilakukan selama pemrosesan. Log audit disimpan di brankas lokal terenkripsi. Dokumen yang dianonimkan memenuhi persyaratan pengecualian lisensi ITAR.

Berbagi Data Lembaga Federal Jerman

Sebuah lembaga federal Jerman (Bundesbehörde) harus menganonimkan data keluhan warga sebelum berbagi dengan lembaga penelitian eksternal. Panduan BfDI melarang pemrosesan pada infrastruktur non-pemerintah.

Aplikasi Desktop berjalan di workstation Windows 11 lembaga. Pemrosesan terjadi secara lokal tanpa panggilan jaringan eksternal. Tim keamanan IT lembaga memvalidasi ini dengan pemantauan lalu lintas jaringan — nol koneksi eksternal selama pemrosesan.

Data Penelitian Klinis Rumah Sakit

Departemen penelitian rumah sakit perlu de-identifikasi rekam pasien untuk uji klinis multi-pusat. De-identifikasi HIPAA Safe Harbor menghapus 18 kategori pengidentifikasi. Jaringan klinis tidak memiliki akses internet berdasarkan kebijakan.

Aplikasi Desktop menangani pemrosesan batch ekspor EHR dalam format CSV dan JSON. Petugas Privasi rumah sakit memvalidasi output terhadap persyaratan HIPAA Safe Harbor sebelum dataset dikirimkan ke mitra penelitian.

Kemampuan Utama untuk Deployment Air-Gapped

Dalam mengevaluasi alat anonimisasi PII offline, prioritaskan:

KemampuanMengapa Penting
Sepenuhnya offline setelah instalasiTidak ada ketergantungan internet selama pemrosesan
Model NLP sudah dibundelTidak ada langkah unduhan yang memerlukan akses jaringan
Pemrosesan batchTangani volume tanpa interaksi manual berulang
Brankas lokal terenkripsiPenyimpanan konfigurasi dan kunci yang aman secara lokal
Log auditDokumentasi untuk tinjauan kepatuhan
Dukungan Windows/macOS/LinuxMencakup lingkungan workstation rahasia
Opsi tanpa telemetriPastikan tidak ada eksfiltrasi data via telemetri
Cakupan format fileDOCX, PDF, TXT, CSV, JSON, Excel

Keunggulan Kedaulatan Data

Denda GDPR €530 juta TikTok dan gelombang penegakan yang mengikutinya telah menciptakan pendorong sekunder untuk alat offline-first: kedaulatan data.

Organisasi UE yang sebelumnya menggunakan alat cloud untuk kenyamanan kini mempertimbangkan ulang apakah pemrosesan pada infrastruktur vendor eksternal memenuhi Bab V GDPR (transfer internasional) dan undang-undang perlindungan data nasional.

Jawaban paling bersih untuk "ke mana data Anda pergi selama pemrosesan?" adalah "ke mana-mana — data tidak pernah meninggalkan perangkat." Pemrosesan offline-first menghilangkan pertanyaan transfer GDPR sepenuhnya.

Khusus untuk organisasi Jerman, kombinasi interpretasi ketat DSGVO atas Pasal 44-46 dan tren penegakan terbaru membuat pemrosesan lokal semakin menarik bahkan bagi organisasi tanpa persyaratan konektivitas yang ketat.

Pertimbangan Deployment Praktis

Instalasi pada sistem air-gapped: Paket installer (Windows .exe/.msi, macOS .dmg, Linux .AppImage/.deb) ditransfer ke lingkungan air-gapped melalui USB atau transfer file yang aman. Tidak diperlukan akses internet setelah instalasi.

Cakupan model bahasa: 24 model spesifik bahasa sudah dibundel. Untuk lingkungan air-gapped, set bahasa lengkap tersedia secara offline tanpa unduhan tambahan.

Persyaratan perangkat keras: Pipeline NLP berjalan efisien di workstation modern tanpa persyaratan GPU. Pemrosesan batch 1.000 dokumen biasanya selesai dalam 5-15 menit tergantung ukuran dokumen dan performa CPU.

Lisensi di lingkungan air-gapped: Aktivasi lisensi offline tersedia untuk lingkungan di mana menghubungkan ke server lisensi tidak memungkinkan.

Kapan Air-Gapping Bukan Pendekatan yang Tepat

Arsitektur air-gapped dan offline-first menyelesaikan masalah tertentu namun memperkenalkan tantangan operasional yang signifikan:

Gesekan pembaruan: Menjaga model AI, pengenal entitas, dan perangkat lunak tetap terkini di lingkungan air-gapped memerlukan proses manual (transfer USB, unduhan manual di jaringan terisolasi). Organisasi yang tidak mempertahankan jadwal pembaruan yang ketat mungkin menjalankan model yang ketinggalan zaman.

Kompleksitas integrasi: Sistem air-gapped tidak dapat langsung terintegrasi dengan logging berbasis cloud, platform SIEM, atau dashboard audit jarak jauh tanpa solusi data-diode kustom. Ini meningkatkan biaya infrastruktur secara signifikan.

Trade-off akurasi: Sistem deteksi PII berbasis cloud dapat memanfaatkan data pelatihan yang terus diperbarui. Model offline adalah snapshot yang bisa menurun seiring waktu terhadap pola bahasa yang berkembang.

Tidak diperlukan untuk semua model ancaman: Organisasi tanpa mandat pemerintah, layanan kesehatan, atau sektor hukum untuk isolasi data mungkin menemukan solusi berbasis cloud dengan enkripsi kuat, audit SOC 2 Type II, dan perjanjian pemrosesan data lebih praktis. Overhead air-gapping hanya memberikan nilai ketika model ancaman benar-benar mencakup eksfiltrasi berbasis jaringan.

Untuk UKM dan sebagian besar kasus penggunaan enterprise, enkripsi kuat saat transit dan saat istirahat dikombinasikan dengan kontrol pemrosesan data kontraktual memberikan perlindungan yang memadai tanpa overhead operasional dari air-gapping penuh.


Aplikasi Desktop anonym.legal (tersedia untuk Windows, macOS, dan Linux) memproses PII sepenuhnya secara lokal menggunakan model NLP yang sudah dibundel. Tidak diperlukan koneksi internet setelah instalasi. Pemrosesan batch mendukung 1-5.000 file tergantung tingkat paket.

Sumber:

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.