您的数据。您的密钥。您的规则。
这个生态系统中的每个产品都建立在一个单一的架构承诺上:您的数据,您的密钥,您的控制。您的密码永远不会离开您的设备。您的文档从不存储。您的加密密钥仅属于您。没有美国云法律,没有供应商传票,没有数据经纪人——可以接触到从未共享的内容。
背景
在过去的28年里,我一直在技术、安全和组织合规的交汇处工作。我于1998年创立了curta.solutions。从那时起,我为26个国家的受监管组织提供服务——在金融服务、医疗保健、法律、政府、制造业和技术领域——作为他们在IT架构、安全、数字化转型和合规方面的合作伙伴。
我在28年中观察到的不是缓慢的演变。它是一场慢动作的危机——随着生成性AI的到来和重叠隐私法规的全球传播,达到了一个临界点。
我的信念
我相信每个人、组织和机构都有权选择性地分享信息——仅向监管者披露监管者有权查看的内容,仅与合作伙伴共享已明确授权的数据,在商业和公共生活中参与而不放弃必须保持私密的内容。
我相信这一权利必须对每个人都可以实际行使——不仅仅是拥有合规部门和企业软件预算的组织。隐私不能是规模的特权。
我相信在一个美国法律可以触及地球上任何美国公司持有的任何数据的世界里,以及77%的员工将敏感数据输入他们无法控制的AI工具的情况下,唯一能够提供有意义隐私保证的架构是数据从一开始就不离开用户的控制。不是合同保证。不是隐私政策。技术架构。
零知识认证。本地优先处理。可逆加密,密钥属于用户。离线能力。欧盟管辖,无例外。这些不是产品特性。它们是任何声称保护个人数据的工具的最低标准。
我相信,在处理世界上最敏感信息的组织内部工作28年——28年目睹监管意图与技术现实之间的差距不断扩大——使我既具备理解能力,也承担起发起生态系统仍然缺乏的内容的责任。定义愿景,组建合适的团队,确保按照问题所要求的标准构建。
匿名化个人信息的权利不是技术特性。 它是一项基本权利。而无法实际行使的权利根本不是权利。
我观察到的问题
监管碎片化:规则过多,无共同语言
一家全球运营的中型组织必须同时应对48个以上国家和地区的隐私法律——GDPR、英国GDPR、CCPA、LGPD、PDPA、PIPL、DPDPA、APPI、PIPEDA等数十个法律。仅在欧盟,24个国家的数据保护机构发布的具有约束力的指导原则在原则上是一致的,但在实践中却各不相同。德国BfDI所满足的要求并不自动满足法国CNIL、爱尔兰DPC或荷兰AP。行业特定的分层——HIPAA、PCI-DSS、NIS2、AI法案——增加了很少协调的要求。
结果不是一个合规框架。它是一个移动的目标,有48个不同的靶心。
纸质怪兽:没有人阅读的协议,没有人验证的控制
组织与数百个子处理者保持数据处理协议,标准合同条款每个转移关系长达30多页,处理活动记录、DPIA、TIA、LIA——每个都需要大多数法律团队无法独立验证的技术输入。实际上:组织签署他们必须签署的内容,归档他们必须归档的内容,并希望技术现实与合同描述相符。纸质怪兽产生了合规的表象。它很少产生实质内容。
技术不足:工具与义务不匹配
基于生成性AI的PII检测是非确定性的。同一文档处理两次会产生不同的结果。从根本上与合规不兼容——您必须可重复和可验证地证明特定数据被检测和正确处理。
Microsoft Presidio、spaCy、Stanza——工程平台,而不是合规工具。部署到生产需要为每种实体类型和语言编写自定义识别器,构建前后处理管道,与文档格式集成,维护所有内容以适应法规的演变。通常在处理单个文档之前需要30到80小时的专业工程时间。大多数组织没有这种内部专业知识。
瑞典雇佣合同中的个人号码、德国税务表格中的Steuer-ID、波兰保险文件中的PESEL、意大利发票中的Codice Fiscale——每个都不仅需要语言检测,还需要文档类型感知的实体识别。主要以英语为训练的语言模型在非英语文本中产生69%的PII漏检率。法律不区分语言。
Microsoft Purview、AWS Macie、Google Cloud DLP——昂贵,需要云连接,将组织锁定。更重要的是:所有这些公司都位于美国。2018年的CLOUD法案要求他们在有效的美国政府请求下在世界任何地方披露数据。FISA第702条允许在没有个人逮捕令的情况下进行情报收集。Schrems II因这一原因使EU-US隐私盾无效。与美国云提供商的六位数年度合同并不能产生GDPR合规的数据处理。
失控的AI问题:市场没有答案
77%的员工每周至少与AI工具分享敏感工作信息。34.8%的所有AI工具输入包含根据至少一个隐私框架资格的敏感信息。员工使用ChatGPT、Copilot、Claude、Gemini来起草合同、总结笔记、分析电子表格——不断地、自动地,而没有意识到他们在提示中粘贴了什么。
传统的DLP系统无法理解自然语言提示的语义内容。它们无法区分开发人员要求AI解释代码模式与开发人员将50,000条记录的生产数据库粘贴到同一窗口。AI模型处理所有内容。它们不提供保护,没有警告,没有DPO可以依赖的审计轨迹。
缺失的是使政策在实践中可执行的技术层。该层在市场上不存在,价格点对于中型组织来说都无法承受,任何形式都无法跨越员工实际使用的AI工具。这是这个生态系统建立的一个缺口。
可达性差距:合规作为规模的特权
独立从业者、社区组织、小型公共机构、研究机构——每个都受到相同的GDPR、相同的删除权、相同的违规通知义务的约束,和全球银行一样——但没有法律团队、工程资源或企业软件预算来正确实施。合规生态系统在满足大型组织方面表现良好,尽管代价高昂。它对其他所有人提供了一个命令,但没有实际的满足手段。
生态系统响应——一个平台,多种表达
伞形平台和主要访问点。混合双层PII检测(260+实体,48种语言,121个合规预设)跨所有部署模型——SaaS、托管私有云和自我管理。所有衍生产品共享相同的检测引擎和相同的创始原则:用户掌握权力。
企业空气间隔版。390+实体,317个自定义正则表达式,100%离线处理,37种语言的图像OCR。零云依赖——数据永远不会离开设备。
云优先的PII平台,提供最广泛的访问。实时AI拦截的Chrome扩展、MCP服务器、Office插件、可逆加密。免费至€29/月——适合每个预算的合规。
桌面优先,完全本地。Presidio侧车在设备上,7种文档格式+OCR,批处理,加密库。一次性永久许可证——无订阅,无云,激活后完全离线。
即时公共演示平台。无需账户——粘贴文本,立即匿名,查看引擎的实际操作。体验生态系统功能的最快方式。
伞形平台——SaaS · 托管私有 · 自我管理 · 3种部署模型
- //组织报告67%的开发人员在代码中意外暴露了秘密——确定性正则表达式捕捉NLP遗漏的内容,反之亦然
- //通用AI检测在非英语文本中达到69%的漏检率——与spaCy + XLM-RoBERTa的双层检测填补了所有48种语言的差距
- //团队之间不一致的编辑是第一个被引用的ICO和DPA审计发现——预设在每个用户、每个会话中强制执行相同的检测行为
- //95%的2024年数据泄露与人为错误有关——共享预设消除了导致差异的每人配置决策
- //多供应商PII堆栈产生审计轨迹缺口——使用3个以上PII工具的组织中有60%以上报告工具之间的调和失败
- //格式碎片化:组织同时处理PDF、DOCX、XLSX、CSV、JSON——每种格式以前需要单独的方法、单独的工具、单独的审计记录
- //企业PII工具的成本为每年$50,000–$500,000——有成本限制的组织历史上没有任何选择
- //CLOUD法案 + FISA第702条意味着美国托管的"GDPR合规"处理是合同虚构——仅限欧盟托管完全消除了这种风险
企业空气间隔——390+实体 · 317个自定义正则 · 100%离线 · 图像OCR
- //行业特定的PII——核设施代码、军事服务号码、专有内部ID——没有任何商业工具覆盖;自定义识别器需要数周的专业工程。
- //覆盖不完整是检测的上限:没有通用工具覆盖所有PII类型、所有语言、所有格式——317个策划模式填补了现成框架遗漏的差距
- //供应商悖论:为了保护PII,您必须与供应商分享它。云处理需要信任处理者——对于处理最敏感数据的组织来说,这是一个架构矛盾。
- //空气间隔环境(国防、情报、关键基础设施、研究实验室)在任何价格下都无法使用依赖云的工具——离线优先完全消除了架构障碍。
- //Microsoft Purview明确无法扫描JPEG/PNG——屏幕截图中的文本PII在企业DLP堆栈中完全不可见。
- //SparkCat恶意软件(iOS/Android,2025年12月)使用OCR从屏幕截图中窃取加密钱包恢复短语——基于图像的文本PII是一个主动攻击目标,而不是理论风险。
- //2022年至2024年间,基于云的数据泄露增加了300%——零知识意味着我们服务器的泄露不会暴露任何内容,因为没有存储任何内容。
- //ISO 27001:2022认证,定期进行全栈渗透测试——受监管采购所需的安全态势是经过文档、验证和独立审计的。
云PII平台——免费至€29/月 · Chrome扩展 · MCP服务器 · Office插件
- //8.5%的所有LLM提示包含PII——在提交之前的实时拦截是唯一有效的预防;事后检测错过了唯一重要的窗口。
- //传统的DLP在数据离开组织后才会触发——Chrome扩展在输入时拦截,在任何模型接收或处理敏感内容之前。
- //生成性AI检测是非确定性的——同一文档在不同运行中产生不同结果;没有概率系统可以作为监管辩护的基础。
- //单靠Presidio会漏掉上下文相关的实体;单靠XLM-RoBERTa在正式法律语言中会产生误报——第三层分类消除了使合规团队不信任自动化工具的误报。
- //法律发现、医疗记录访问请求、监管审计——匿名数据有时必须由授权方进行去匿名化,且仅由他们进行;不可逆的方法使这变得不可能。
- //用户的会话密钥永远不会离开他们的设备——不在我们的服务器上,不在任何云上,不在任何子处理器上。逆向匿名化的权利属于用户,而不是我们。
- //独立从业者面临与全球银行相同的GDPR删除权义务——但没有合规部门或每年€500K的企业软件预算。
- //764个欧盟组织同时因删除权失败而受到调查——并不是因为他们打算违反;而是因为合规的工具价格超出了他们的承受范围。
桌面优先 · 100%本地处理 · 7种文档格式 + OCR · 一次性许可证
- //2022年至2024年间,基于云的数据泄露增加了300%——永远不进入云的数据无法在云泄露中暴露。
- //CLOUD法案 + FISA使美国托管的处理在法律上对欧盟组织不确定——本地处理通过确保没有转移发生,消除了整个跨境转移问题。
- //格式碎片化迫使组织维护多个工具——每个工具创建单独的检测政策、单独的审计记录、单独的失败模式。
- //日志文件是被忽视的PII表面——开发人员专注于数据库,但日志中包含API密钥、用户ID、IP地址;CSV和JSON与结构化文档一起原生支持。
- //空气间隔生产环境——制造车间、政府安全设施、研究实验室——无法容忍需要网络访问的许可证检查;一次性激活后完全离线操作是唯一可行的架构。
- //永久许可证,无需重复的SaaS依赖:用户拥有他们的安装;供应商订阅取消不能在关键处理时刻禁用工具。
- //dbt管道重建会破坏CSV/JSON数据的掩蔽政策——EDPB 2024年明确指出这违反了GDPR第5(1)(a)条;带有加密历史的库存储意味着每个处理的文件都有可审计、可恢复的记录。
- //处理数千个遗留文档以满足GDPR删除权合规的组织需要批处理能力——而不是每天5个文件的SaaS限制,这使得任务在操作上变得不可能。
问题的规模
这些不是孤立的失败。它们是合规环境的系统性结果,该环境已经超越了自身的基础设施。