เมื่อเครือข่ายไม่มีทางออก
นักวิทยาศาสตร์ข้อมูลทำงานในบริษัทป้องกันประเทศ เธอมีบันทึกบุคคล 3,000 รายการ ต้องการลบชื่อ หมายเลขประกันสังคม และระดับการอนุมัติ จากนั้นจึงแชร์ข้อมูลกับพันธมิตรวิจัยภายใต้ข้อตกลง CUI
เครือข่ายของเธอไม่มีอินเทอร์เน็ต โดยการออกแบบ
เธอทดสอบเครื่องมือบนเว็บทุกตัวที่หาได้ แต่ละตัวส่งข้อมูลไปยังเซิร์ฟเวอร์ภายนอก ทุกแพลตฟอร์มคลาวด์ต้องการบัญชีและการเชื่อมต่อสด แม้แต่เครื่องมือ "on-premises" มักเรียกเซิร์ฟเวอร์ใบอนุญาตระยะไกล
นี่คือปัญหาการติดตั้งแบบ air-gapped ซึ่งส่งผลต่อทีมมากกว่าที่คนส่วนใหญ่คาดไว้
ใครต้องการการลบ PII แบบออฟไลน์
บริษัทป้องกันและหน่วยงานรัฐบาล เผชิญสิ่งนี้บ่อยที่สุด โปรแกรม FedRAMP ของ DISA กำหนดให้ข้อมูลอยู่ภายในขอบเขตเครือข่ายที่ได้รับอนุมัติ ITAR จำกัดข้อมูลทางเทคนิคให้อยู่ในระบบที่ควบคุมโดยสหรัฐฯ เครือข่ายอย่าง JWICS และ SIPRNet ถูกตัดขาดโดยกายภาพโดยการออกแบบ
แต่ความต้องการออฟไลน์ขยายไปเกินกว่าเว็บไซต์ลับ:
โรงพยาบาลที่มีเครือข่ายแยก ระบบ PACS, แพลตฟอร์ม EHR และฐานข้อมูลวิจัยมักอยู่บนเครือข่ายที่ไม่มีอินเทอร์เน็ตตามนโยบาย
ระบบควบคุมอุตสาหกรรม เครือข่าย SCADA และโครงสร้างพื้นฐานสำคัญใช้ air gap เป็นมาตรการความปลอดภัยหลัก
กฎระเบียบข้อมูลยุโรป กฎหมาย Landesdatenschutzgesetze ของเยอรมนีและกฎหมาย EU ที่คล้ายกันกำหนดให้ประมวลผลข้อมูลในท้องถิ่นสำหรับบันทึกของรัฐบาลและสุขภาพที่สำคัญ ค่าปรับ GDPR €530 ล้านของ TikTok ในเดือนพฤษภาคม 2025 ครอบคลุมการโอนข้อมูลไปยังจีน ทำให้ทีมมากขึ้นหันมาใช้เครื่องมือในท้องถิ่น ดู ภาพรวมการปฏิบัติตาม สำหรับกฎการโอนของ GDPR
ทำไมเครื่องมือคลาวด์จึงล้มเหลวในเครือข่าย Air-Gapped
เครื่องมือลบข้อมูลส่วนใหญ่ใช้โมเดล SaaS:
อุปกรณ์ผู้ใช้ → HTTPS → Vendor API → โมเดล NLP → ตอบกลับ → อุปกรณ์ผู้ใช้
การออกแบบนี้ต้องการการเข้าถึงอินเทอร์เน็ตที่อุปกรณ์ประมวลผล ต้องไว้วางใจเซิร์ฟเวอร์ผู้ให้บริการ และข้อมูลข้ามเครือข่ายภายนอก
บนเครือข่าย air-gapped ขั้นตอนแรกเป็นไปไม่ได้ทางกายภาพ สำหรับสภาพแวดล้อมที่มีการกำกับดูแล ขั้นตอนสองถึงสี่อาจแต่ละขั้นละเมิดกฎการปฏิบัติตาม
วิธีที่การลบ PII แบบในเครื่องทำงาน
เครื่องมือออฟไลน์ที่ดีมาพร้อมทุกสิ่งที่ต้องการ:
โมเดล NLP รวมมา โมเดล spaCy (40–80 MB ต่อตัว) และโมเดล transformer สำหรับการตรวจจับ entity ที่มีชื่อเป็นส่วนหนึ่งของตัวติดตั้ง ไม่ต้องดาวน์โหลดเมื่อรันงาน
Pipeline ตรวจจับในเครื่อง Regex, NLP และ ML รันบน CPU ในเครื่อง — หรือ GPU หากมี engine ที่ใช้ Presidio ภายใน anonym.legal ไม่เรียก network ระหว่างรันงาน
Vault เข้ารหัสในเครื่อง การกำหนดค่า preset และกุญแจถูกเก็บในเครื่อง vault ใช้การเข้ารหัส AES-256-GCM และการสร้างกุญแจ Argon2id ไม่มีการซิงค์คลาวด์ vault อยู่บนอุปกรณ์
I/O ไฟล์ในเครื่อง ไฟล์นำเข้ามาจากที่เก็บข้อมูลในเครื่อง ไฟล์ผลลัพธ์กลับไปยังที่เก็บข้อมูลในเครื่อง ไม่มีข้อมูลข้ามอินเทอร์เฟซเครือข่ายใดๆ
พื้นที่โจมตีขนาดเล็ก Desktop App ใช้ Tauri 2.0 (ฐาน Rust) Tauri มีพื้นที่โจมตีที่เล็กกว่าเครื่องมือฐาน Electron มาก ไฟล์ไบนารีมีขนาดประมาณหนึ่งในสิบของ Electron
สามสถานการณ์ปฏิบัติตามจริง
เอกสาร ITAR — 500 ไฟล์
บริษัทป้องกันต้องแชร์เอกสารทางเทคนิคกับพันธมิตรต่างประเทศภายใต้ข้อยกเว้นใบอนุญาต ไฟล์มีชื่อบุคคล US และข้อมูลบุคลากรที่ต้องลบก่อน
Desktop App จัดการไฟล์ DOCX 500+ รายการในท้องถิ่นในโหมด batch ไม่มีการเรียก network ระหว่างรันงาน บันทึกการตรวจสอบอยู่ใน vault ในเครื่อง ผลลัพธ์ตรงตามความต้องการข้อยกเว้นใบอนุญาต ITAR
หน่วยงานรัฐบาลเยอรมัน — บันทึกข้อร้องเรียน
หน่วยงานรัฐบาลเยอรมันต้องลบข้อมูลส่วนบุคคลออกจากบันทึกข้อร้องเรียนของพลเมือง จากนั้นส่งบันทึกไปยังสถาบันวิจัย แนวทาง BfDI ห้ามการประมวลผลบนระบบที่ไม่ใช่ระบบของรัฐบาล
Desktop App รันบน workstation Windows 11 ของหน่วยงาน การประมวลผลทั้งหมดอยู่ในเครื่อง ทีมรักษาความปลอดภัย IT ยืนยันด้วยการตรวจสอบ traffic — ไม่มีการเชื่อมต่อภายนอกระหว่างรันงาน
การวิจัยโรงพยาบาล — การลบข้อมูล EHR
ทีมวิจัยโรงพยาบาลต้องการลบข้อมูลผู้ป่วยสำหรับการทดลองทางคลินิก HIPAA Safe Harbor กำหนดให้ลบตัวระบุ 18 ประเภท เครือข่ายคลินิกไม่มีการเข้าถึงอินเทอร์เน็ต
Desktop App จัดการการประมวลผล batch ของ EHR exports ในรูปแบบ CSV และ JSON เจ้าหน้าที่ความเป็นส่วนตัวตรวจสอบผลลัพธ์กับกฎ Safe Harbor ก่อนชุดข้อมูลไปถึงพันธมิตรวิจัย
สิ่งที่ควรมองหาในเครื่องมือออฟไลน์
| ความสามารถ | เหตุใดจึงสำคัญ |
|---|---|
| ออฟไลน์ทั้งหมดหลังติดตั้ง | ไม่ต้องพึ่งอินเทอร์เน็ตระหว่างประมวลผล |
| โมเดล NLP รวมมา | ไม่ต้องดาวน์โหลด |
| การประมวลผล batch | จัดการปริมาณมากโดยไม่ต้องทำด้วยตนเอง |
| Vault เข้ารหัสในเครื่อง | เก็บ config และกุญแจอย่างปลอดภัย |
| บันทึกการตรวจสอบ | บันทึกที่จำเป็นสำหรับการตรวจสอบการปฏิบัติตาม |
| รองรับ Windows, macOS, Linux | ครอบคลุมประเภท workstation ลับ |
| ไม่มี telemetry | หยุดข้อมูลออกผ่าน telemetry |
| รองรับรูปแบบไฟล์ | DOCX, PDF, TXT, CSV, JSON, Excel |
หมายเหตุการติดตั้งจริง
ติดตั้งในระบบ air-gapped ตัวติดตั้ง — Windows .exe หรือ .msi, macOS .dmg, Linux .AppImage หรือ .deb — โอนไปยังเครือข่าย air-gapped ผ่าน USB หรือการโอนไฟล์ที่ปลอดภัย ไม่ต้องใช้อินเทอร์เน็ตหลังติดตั้ง
การรองรับภาษา โมเดลเฉพาะภาษา 24 ตัวมาพร้อมกับแอป ชุดครบถ้วนพร้อมใช้งานออฟไลน์
ความต้องการฮาร์ดแวร์ Pipeline NLP รันบน workstation สมัยใหม่โดยไม่ต้องใช้ GPU การประมวลผล batch ของเอกสาร 1,000 รายการใช้เวลาประมาณ 5–15 นาที
เมื่อ Air-Gapping ไม่เหมาะสม
ระบบ air-gapped แก้ปัญหาเฉพาะ แต่ก็เพิ่มภาระจริง:
แรงเสียดทานในการอัปเดต การทำให้โมเดลและซอฟต์แวร์ทันสมัยต้องใช้ขั้นตอนด้วยตนเอง
ค่าใช้จ่ายในการเชื่อมโยง ระบบ air-gapped ไม่สามารถเชื่อมต่อกับเครื่องมือ SIEM คลาวด์หรือแดชบอร์ดการตรวจสอบระยะไกลได้
การแลกเปลี่ยนความแม่นยำ เครื่องมือคลาวด์อัปเดตข้อมูลการฝึกอบรมอย่างต่อเนื่อง โมเดลออฟไลน์คือ snapshot อาจตามหลังรูปแบบภาษาใหม่เมื่อเวลาผ่านไป
ไม่จำเป็นสำหรับทุก threat model ทีมที่ไม่มีคำสั่งจากรัฐบาล สุขภาพ หรือกฎหมายอาจพบว่าเครื่องมือคลาวด์ใช้งานได้จริงกว่า การเข้ารหัสที่แข็งแกร่ง การตรวจสอบ SOC 2 Type II และข้อตกลงการประมวลผลข้อมูลครอบคลุมกรณีส่วนใหญ่
ดู FAQ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเลือกโมเดลการติดตั้งที่เหมาะสม
Desktop App ของ anonym.legal (Windows, macOS, Linux) ประมวลผล PII ทั้งหมดในเครื่องด้วยโมเดล NLP ที่รวมมา ไม่ต้องใช้การเชื่อมต่ออินเทอร์เน็ตหลังติดตั้ง การประมวลผล batch รองรับ 1–5,000 ไฟล์ต่อรันขึ้นอยู่กับระดับแผน