TUYÊN BỐ CỦA NGƯỜI SÁNG LẬP
Tại Sao Tôi Khởi Xướng Hệ Sinh Thái Này — Một Niềm Tin Chuyên Nghiệp Sau 28 Năm
Dữ liệu của bạn. Chìa khóa của bạn. Quy tắc của bạn.
Mỗi sản phẩm trong hệ sinh thái này được xây dựng dựa trên một cam kết kiến trúc duy nhất: dữ liệu của bạn, chìa khóa của bạn, quyền kiểm soát của bạn. Mật khẩu của bạn không bao giờ rời khỏi thiết bị của bạn. Tài liệu của bạn không bao giờ được lưu trữ. Chìa khóa mã hóa của bạn chỉ thuộc về bạn. Không có luật đám mây của Mỹ, không có trát đòi hàng hóa từ nhà cung cấp, không có môi giới dữ liệu — có thể tiếp cận những gì chưa bao giờ được chia sẻ.
Bối Cảnh
Trong 28 năm qua, tôi đã làm việc tại giao điểm của công nghệ, an ninh và tuân thủ tổ chức. Tôi đã thành lập curta.solutions vào năm 1998. Kể từ đó, tôi đã phục vụ các tổ chức được quản lý trên 26 quốc gia — trong lĩnh vực dịch vụ tài chính, chăm sóc sức khỏe, pháp lý, chính phủ, sản xuất và công nghệ — như một đối tác trong kiến trúc CNTT, an ninh, chuyển đổi số và tuân thủ.
Những gì tôi quan sát được trong 28 năm qua không phải là một sự tiến hóa chậm chạp. Đó là một cuộc khủng hoảng trong chuyển động chậm — một cuộc khủng hoảng đã đến điểm gãy với sự xuất hiện của AI sinh tạo và sự lan rộng toàn cầu của các quy định về quyền riêng tư chồng chéo.
Niềm Tin Của Tôi
Tôi tin rằng mỗi người, tổ chức và thể chế đều có quyền chia sẻ thông tin một cách chọn lọc — tiết lộ cho một cơ quan quản lý chỉ những gì cơ quan quản lý có quyền thấy, hợp tác với một đối tác chỉ trên dữ liệu đã được ủy quyền rõ ràng, tham gia vào đời sống thương mại và công cộng mà không phải từ bỏ những gì phải giữ riêng tư.
Tôi tin rằng quyền này phải có thể thực hiện được một cách thực tiễn bởi mọi người — không chỉ bởi các tổ chức có bộ phận tuân thủ và ngân sách phần mềm doanh nghiệp. Quyền riêng tư không thể là đặc quyền của quy mô.
Tôi tin rằng trong một thế giới mà luật pháp Mỹ có thể tiếp cận bất kỳ dữ liệu nào do bất kỳ công ty Mỹ nào nắm giữ ở bất kỳ đâu trên trái đất, và nơi 77% nhân viên cung cấp dữ liệu nhạy cảm vào các công cụ AI mà họ không kiểm soát, kiến trúc duy nhất có thể cung cấp một đảm bảo quyền riêng tư có ý nghĩa là kiến trúc mà dữ liệu không bao giờ rời khỏi quyền kiểm soát của người dùng ngay từ đầu. Không phải các đảm bảo hợp đồng. Không phải các chính sách quyền riêng tư. Kiến trúc kỹ thuật.
Xác thực không biết. Xử lý địa phương trước. Mã hóa có thể đảo ngược nơi chìa khóa thuộc về người dùng. Hoạt động có thể ngoại tuyến. Thẩm quyền EU, không có ngoại lệ. Đây không phải là các tính năng sản phẩm. Chúng là tiêu chuẩn tối thiểu cho bất kỳ công cụ nào tuyên bố bảo vệ dữ liệu cá nhân.
Và tôi tin rằng 28 năm làm việc bên trong các tổ chức xử lý thông tin nhạy cảm nhất thế giới — 28 năm chứng kiến khoảng cách giữa ý định quy định và thực tế kỹ thuật mở rộng — đã cho tôi cả sự hiểu biết và trách nhiệm để khởi xướng những gì hệ sinh thái vẫn thiếu. Để định nghĩa tầm nhìn, tập hợp đội ngũ đúng, và đảm bảo nó được xây dựng theo tiêu chuẩn mà vấn đề yêu cầu.
Quyền ẩn danh thông tin cá nhân không phải là một tính năng kỹ thuật. Đó là một quyền cơ bản. Và một quyền không thể thực hiện được một cách thực tiễn thì không phải là quyền gì cả.
Các Vấn Đề Tôi Quan Sát
Phân Mảnh Quy Định: Quá Nhiều Quy Tắc, Không Có Ngôn Ngữ Chung
Một tổ chức vừa và nhỏ hoạt động toàn cầu phải đồng thời điều hướng 48+ luật quyền riêng tư quốc gia và khu vực — GDPR, UK GDPR, CCPA, LGPD, PDPA, PIPL, DPDPA, APPI, PIPEDA và hàng chục luật khác. 24 DPA quốc gia trong EU đơn giản đưa ra hướng dẫn ràng buộc mà nhất quán về nguyên tắc và khác biệt trong thực tiễn. Những gì thỏa mãn BfDI của Đức không tự động thỏa mãn CNIL của Pháp, DPC của Ireland, hoặc AP của Hà Lan. Việc phân lớp theo lĩnh vực — HIPAA, PCI-DSS, NIS2, Đạo luật AI — thêm yêu cầu hiếm khi được hài hòa với nhau.
Kết quả không phải là một khung tuân thủ. Đó là một mục tiêu di động với 48 mục tiêu khác nhau.
Quái Vật Giấy: Các Thỏa Thuận Không Ai Đọc, Kiểm Soát Không Ai Xác Minh
Các tổ chức duy trì các thỏa thuận xử lý dữ liệu với hàng trăm nhà thầu phụ, Các Điều Khoản Hợp Đồng Chuẩn kéo dài đến hơn 30 trang cho mỗi mối quan hệ chuyển nhượng, Hồ Sơ Hoạt Động Xử Lý, DPIA, TIA, LIA — mỗi cái đều yêu cầu đầu vào kỹ thuật mà hầu hết các đội ngũ pháp lý không thể xác minh độc lập. Trong thực tế: các tổ chức ký những gì họ phải ký, lưu trữ những gì họ phải lưu trữ, và hy vọng rằng thực tế kỹ thuật phù hợp với mô tả hợp đồng. Quái vật giấy tạo ra vẻ ngoài tuân thủ. Nó hiếm khi tạo ra bản chất của nó.
Sự Thiếu Sót Kỹ Thuật: Các Công Cụ Không Phù Hợp Với Nghĩa Vụ
Việc phát hiện PII dựa trên AI sinh tạo là không xác định. Cùng một tài liệu được xử lý hai lần tạo ra kết quả khác nhau. Về cơ bản không tương thích với tuân thủ — nơi bạn phải chứng minh, một cách có thể tái tạo và xác minh, rằng dữ liệu cụ thể đã được phát hiện và xử lý đúng cách.
Microsoft Presidio, spaCy, Stanza — các nền tảng kỹ thuật, không phải công cụ tuân thủ. Triển khai vào sản xuất yêu cầu viết các bộ nhận diện tùy chỉnh cho mỗi loại thực thể và ngôn ngữ, xây dựng các quy trình tiền/xử lý, tích hợp với các định dạng tài liệu, duy trì mọi thứ khi các quy định phát triển. Thông thường 30–80 giờ thời gian kỹ thuật viên chuyên môn trước khi một tài liệu được xử lý. Hầu hết các tổ chức không có chuyên môn đó trong nhà.
Một số người trong hợp đồng lao động Thụy Điển, một Steuer-ID trong mẫu thuế Đức, một PESEL trong tài liệu bảo hiểm Ba Lan, một Codice Fiscale trong hóa đơn Ý — mỗi cái không chỉ yêu cầu phát hiện ngôn ngữ mà còn nhận diện thực thể nhận thức theo loại tài liệu. Các mô hình ngôn ngữ được đào tạo chủ yếu trên tiếng Anh tạo ra tỷ lệ bỏ sót PII 69% trong văn bản không phải tiếng Anh. Luật pháp không phân biệt theo ngôn ngữ.
Microsoft Purview, AWS Macie, Google Cloud DLP — đắt đỏ, yêu cầu kết nối đám mây, khóa các tổ chức lại. Quan trọng hơn: tất cả đều có trụ sở tại Mỹ. Đạo luật CLOUD năm 2018 buộc họ phải tiết lộ dữ liệu ở bất kỳ đâu trên thế giới theo yêu cầu hợp lệ của chính phủ Mỹ. Mục 702 của FISA cho phép thu thập tình báo mà không cần lệnh cá nhân. Schrems II đã vô hiệu hóa Bảo vệ Quyền Riêng Tư EU-Mỹ vì lý do này. Một hợp đồng hàng năm sáu con số với nhà cung cấp đám mây của Mỹ không tạo ra xử lý dữ liệu tuân thủ GDPR.
Vấn Đề AI Không Kiểm Soát: Thị Trường Không Có Câu Trả Lời
77% nhân viên chia sẻ thông tin công việc nhạy cảm với các công cụ AI ít nhất hàng tuần. 34,8% tất cả các đầu vào công cụ AI chứa thông tin đủ điều kiện là nhạy cảm theo ít nhất một khung quyền riêng tư. Nhân viên sử dụng ChatGPT, Copilot, Claude, Gemini để soạn thảo hợp đồng, tóm tắt ghi chú, phân tích bảng tính — liên tục, tự động, mà không nhận thức được những gì họ đang dán vào một lời nhắc.
Các hệ thống DLP truyền thống không thể hiểu nội dung ngữ nghĩa của một lời nhắc bằng ngôn ngữ tự nhiên. Họ không thể phân biệt một nhà phát triển yêu cầu AI giải thích một mẫu mã từ một nhà phát triển dán một cơ sở dữ liệu sản xuất 50,000 bản ghi vào cùng một cửa sổ. Các mô hình AI xử lý mọi thứ. Họ không cung cấp bảo vệ, không có cảnh báo, không có dấu vết kiểm toán mà một DPO có thể dựa vào.
Điều còn thiếu là lớp kỹ thuật khiến chính sách có thể thực thi trong thực tế. Lớp đó không tồn tại trên thị trường ở bất kỳ mức giá nào mà một tổ chức vừa và nhỏ có thể chi trả, ở bất kỳ hình thức nào hoạt động trên các công cụ AI mà nhân viên thực sự sử dụng. Đây là một trong những khoảng trống mà hệ sinh thái này được xây dựng để lấp đầy.
Khoảng Cách Tiếp Cận: Tuân Thủ Là Đặc Quyền Của Quy Mô
Một người hành nghề độc lập, một tổ chức cộng đồng, một cơ quan công quyền nhỏ, một cơ sở nghiên cứu — mỗi cái đều phải tuân thủ cùng một GDPR, cùng một quyền xóa bỏ, cùng một nghĩa vụ thông báo vi phạm như một ngân hàng toàn cầu — nhưng không có đội ngũ pháp lý, nguồn lực kỹ thuật, hoặc ngân sách phần mềm doanh nghiệp để thực hiện đúng. Hệ sinh thái tuân thủ đã phục vụ các tổ chức lớn một cách đầy đủ, nếu tốn kém. Nó đã phục vụ mọi người khác với một mệnh lệnh và không có phương tiện thực tiễn nào để đáp ứng.
Phản Ứng của Hệ Sinh Thái — Một Nền Tảng, Nhiều Biểu Thị
Nền tảng umbrella và điểm truy cập chính. Phát hiện PII hai lớp lai (260+ thực thể, 48 ngôn ngữ, 121 cài đặt tuân thủ) trên tất cả các mô hình triển khai — SaaS, đám mây riêng được quản lý, và tự quản lý. Tất cả các sản phẩm phát sinh chia sẻ cùng một động cơ phát hiện và cùng một nguyên tắc sáng lập: quyền lực trong tay người dùng.
Phiên bản doanh nghiệp không kết nối. 390+ thực thể, 317 mẫu regex tùy chỉnh, xử lý hoàn toàn ngoại tuyến, OCR hình ảnh trong 37 ngôn ngữ. Không phụ thuộc vào đám mây — dữ liệu không bao giờ rời khỏi thiết bị.
Nền tảng PII ưu tiên đám mây với quyền truy cập rộng nhất. Tiện ích mở rộng Chrome cho việc chặn AI theo thời gian thực, Máy chủ MCP, Tiện ích bổ sung Office, mã hóa có thể đảo ngược. Miễn phí đến €29/tháng — tuân thủ cho mọi ngân sách.
Đầu tiên trên máy tính để bàn, hoàn toàn địa phương. Presidio sidecar trên thiết bị, 7 định dạng tài liệu + OCR, xử lý theo lô, kho mã hóa. Giấy phép vĩnh viễn một lần — không có đăng ký, không có đám mây, hoàn toàn ngoại tuyến sau khi kích hoạt.
Nền tảng demo công khai tức thì. Không cần tài khoản — dán văn bản, ngay lập tức ẩn danh, xem động cơ hoạt động. Cách nhanh nhất để trải nghiệm những gì hệ sinh thái làm.
Nền Tảng Umbrella — SaaS · Đám Mây Riêng Quản Lý · Tự Quản Lý · 3 mô hình triển khai
- //Các tổ chức báo cáo 67% nhà phát triển đã vô tình tiết lộ bí mật trong mã — regex xác định những gì NLP bỏ lỡ và ngược lại
- //Phát hiện AI đa mục đích đạt tỷ lệ bỏ sót 69% trong văn bản không phải tiếng Anh — hai lớp với spaCy + XLM-RoBERTa lấp đầy khoảng trống trên tất cả 48 ngôn ngữ
- //Việc xóa bỏ không đồng nhất giữa các đội là phát hiện được trích dẫn nhiều nhất trong kiểm toán ICO và DPA — các cài đặt sẵn đảm bảo hành vi phát hiện giống nhau giữa mọi người dùng, mọi phiên
- //95% các vi phạm dữ liệu năm 2024 liên quan đến lỗi của con người — các cài đặt sẵn chia sẻ loại bỏ các quyết định cấu hình theo từng người tạo ra sự khác biệt
- //Các ngăn xếp PII đa nhà cung cấp tạo ra khoảng trống trong dấu vết kiểm toán — hơn 60% các tổ chức sử dụng 3+ công cụ PII báo cáo thất bại trong việc hòa giải giữa các công cụ
- //Phân mảnh định dạng: các tổ chức xử lý PDF, DOCX, XLSX, CSV, JSON đồng thời — mỗi định dạng trước đây yêu cầu một cách tiếp cận riêng biệt, một công cụ riêng biệt, một hồ sơ kiểm toán riêng biệt
- //Các công cụ PII doanh nghiệp có giá từ $50,000–$500,000/năm — các tổ chức có hạn chế về chi phí trước đây không có tùy chọn nào cả
- //Đạo luật CLOUD + Mục 702 của FISA có nghĩa là xử lý "tuân thủ GDPR" được lưu trữ tại Mỹ là một điều hư cấu hợp đồng — lưu trữ chỉ ở EU loại bỏ hoàn toàn sự tiếp xúc này
Doanh Nghiệp Không Kết Nối — 390+ thực thể · 317 regex tùy chỉnh · 100% ngoại tuyến · OCR Hình Ảnh
- //PII theo ngành — mã cơ sở hạt nhân, số dịch vụ quân sự, ID nội bộ độc quyền — không được bất kỳ công cụ thương mại nào bảo vệ; các bộ nhận diện tùy chỉnh yêu cầu hàng tuần kỹ thuật viên chuyên môn trong Presidio thô
- //Sự không đầy đủ về độ phủ là trần phát hiện: không có công cụ chung nào bao phủ tất cả các loại PII, tất cả ngôn ngữ, tất cả định dạng — 317 mẫu được tuyển chọn lấp đầy các khoảng trống mà các khuôn khổ sẵn có bỏ lỡ
- //Nghịch lý nhà cung cấp: để bảo vệ PII bạn phải chia sẻ nó với một nhà cung cấp. Xử lý đám mây yêu cầu tin tưởng vào bộ xử lý — một mâu thuẫn kiến trúc cho các tổ chức xử lý dữ liệu nhạy cảm nhất
- //Các môi trường không kết nối (quốc phòng, tình báo, cơ sở hạ tầng quan trọng, phòng thí nghiệm nghiên cứu) không thể sử dụng các công cụ phụ thuộc vào đám mây ở bất kỳ mức giá nào — ưu tiên ngoại tuyến loại bỏ hoàn toàn rào cản kiến trúc
- //Microsoft Purview rõ ràng không thể quét JPEG/PNG — PII văn bản trong ảnh chụp màn hình hoàn toàn vô hình với ngăn xếp DLP doanh nghiệp theo thiết kế
- //Phần mềm độc hại SparkCat (iOS/Android, tháng 12 năm 2025) đã sử dụng OCR để đánh cắp cụm từ khôi phục ví tiền điện tử từ ảnh chụp màn hình — PII văn bản dựa trên hình ảnh là một mục tiêu tấn công chủ động, không phải là một rủi ro lý thuyết
- //Tăng 300% trong các vi phạm dữ liệu dựa trên đám mây giữa năm 2022 và 2024 — không biết có nghĩa là một vi phạm máy chủ của chúng tôi không tiết lộ gì, vì không có gì được lưu trữ
- //Chứng nhận ISO 27001:2022 với kiểm tra xâm nhập toàn diện định kỳ — tư thế an ninh mà việc mua sắm được quản lý yêu cầu được tài liệu, xác minh và kiểm toán độc lập
Nền Tảng PII Đám Mây — Miễn phí đến €29/tháng · Tiện ích mở rộng Chrome · Máy chủ MCP · Tiện ích bổ sung Office
- //8,5% tất cả các lời nhắc LLM chứa PII — việc chặn theo thời gian thực trước khi gửi là biện pháp duy nhất hiệu quả; phát hiện sau đó bỏ lỡ cửa sổ duy nhất quan trọng
- //DLP truyền thống hoạt động sau khi dữ liệu đã rời khỏi tổ chức — Tiện ích mở rộng Chrome chặn tại điểm nhập, trước khi bất kỳ mô hình nào nhận hoặc xử lý nội dung nhạy cảm
- //Phát hiện AI sinh tạo là không xác định — cùng một tài liệu tạo ra kết quả khác nhau trong các lần chạy khác nhau; không có hệ thống xác suất nào có thể làm cơ sở cho một sự bảo vệ quy định
- //Chỉ riêng Presidio đã bỏ lỡ các thực thể phụ thuộc vào ngữ cảnh; XLM-RoBERTa một mình tạo ra các kết quả dương tính giả trong ngôn ngữ pháp lý chính thức — một lớp phân loại stance thứ ba loại bỏ các kết quả dương tính giả khiến các đội tuân thủ không tin tưởng vào các công cụ tự động
- //Khám phá pháp lý, yêu cầu truy cập hồ sơ y tế, kiểm toán quy định — dữ liệu ẩn danh đôi khi phải được khôi phục bởi bên được ủy quyền và chỉ bởi họ; các phương pháp không thể đảo ngược làm điều này trở nên không thể
- //Khóa phiên của người dùng không bao giờ rời khỏi thiết bị của họ — không phải máy chủ của chúng tôi, không phải bất kỳ đám mây nào, không phải bất kỳ nhà thầu phụ nào. Quyền đảo ngược ẩn danh thuộc về người dùng, không phải chúng tôi.
- //Một người hành nghề độc lập phải đối mặt với cùng một nghĩa vụ xóa bỏ theo GDPR như một ngân hàng toàn cầu — nhưng không có bộ phận tuân thủ hoặc ngân sách phần mềm doanh nghiệp €500K/năm
- //764 tổ chức EU đang cùng lúc bị điều tra về các vi phạm quyền xóa bỏ — không phải vì họ có ý định vi phạm; mà vì các công cụ để tuân thủ đã có giá vượt quá khả năng của họ
Đầu tiên trên máy tính để bàn · Xử lý Hoàn Toàn Địa Phương · 7 Định Dạng Tài Liệu + OCR · Giấy Phép Một Lần
- //Tăng 300% trong các vi phạm dữ liệu dựa trên đám mây giữa năm 2022 và 2024 — dữ liệu không bao giờ vào đám mây không thể bị lộ trong một vi phạm đám mây
- //Đạo luật CLOUD + FISA khiến việc xử lý được lưu trữ tại Mỹ trở nên không chắc chắn về mặt pháp lý cho các tổ chức EU — xử lý địa phương loại bỏ hoàn toàn vấn đề chuyển giao xuyên biên giới bằng cách đảm bảo không có chuyển giao xảy ra
- //Phân mảnh định dạng buộc các tổ chức phải duy trì nhiều công cụ — mỗi công cụ tạo ra một chính sách phát hiện riêng biệt, một hồ sơ kiểm toán riêng biệt, một chế độ thất bại riêng biệt
- //Tệp nhật ký là bề mặt PII bị bỏ qua — các nhà phát triển tập trung vào cơ sở dữ liệu nhưng nhật ký chứa khóa API, ID người dùng, địa chỉ IP; CSV và JSON được hỗ trợ tự nhiên bên cạnh các tài liệu có cấu trúc
- //Các môi trường sản xuất không kết nối — sàn sản xuất, cơ sở an ninh chính phủ, phòng thí nghiệm nghiên cứu — không thể chịu đựng một kiểm tra giấy phép yêu cầu truy cập mạng; kích hoạt một lần sau đó hoạt động hoàn toàn ngoại tuyến là kiến trúc khả thi duy nhất
- //Giấy phép vĩnh viễn không có phụ thuộc vào SaaS: người dùng sở hữu cài đặt của họ; việc hủy đăng ký của nhà cung cấp không thể vô hiệu hóa một công cụ vào thời điểm xử lý quan trọng
- //Các quy trình dbt tái xây dựng phá hủy các chính sách che giấu trên dữ liệu CSV/JSON — EDPB 2024 làm rõ điều này vi phạm GDPR Art. 5(1)(a); lưu trữ kho với lịch sử mã hóa có nghĩa là mỗi tệp đã xử lý có một hồ sơ có thể kiểm toán, có thể phục hồi
- //Các tổ chức xử lý hàng ngàn tài liệu cũ để tuân thủ quyền xóa bỏ GDPR cần khả năng xử lý theo lô — không phải giới hạn 5 tệp mỗi ngày của SaaS khiến nhiệm vụ trở nên không thể thực hiện
Quy Mô Của Vấn Đề
Đây không phải là những thất bại cá biệt. Chúng là kết quả hệ thống của một môi trường tuân thủ đã vượt xa cơ sở hạ tầng của chính nó.