所有文章技术

技术

深入探讨 PII 检测、NER 和匿名化技术

33 文章

技术

跨平台PII合规:为什么仅限Windows的工具在Mac和Linux企业环境中失败

隐私官在Mac上、法律部门在Windows上、数据工程师在Linux上——所有人都在处理相同的数据,但在不同的操作系统上。以下是为什么PII检测跨操作系统一致性很关键。

July 12, 20266 分钟
技术

跨应用PII保护:如何保护Word、Chrome和AI工具间的数据流动

客户数据从浏览器研究流向Word草稿,再流向Claude提示。每次上下文切换都是一个潜在泄露点。以下是一致的跨平台保护的样子。

July 8, 20266 分钟
技术

您的应用日志中的GDPR:为什么每个JSON日志文件都是潜在的合规违规

应用日志包含客户电子邮件地址、IP和GDPR第5条第1款(e)要求管理的账户号码。以下是日志匿名化在实践中的表现。

June 30, 20266 分钟
技术

GDPR合规日志共享:如何在不破坏调试工作流程的情况下匿名化JSON应用日志

应用日志静默地积累用户电子邮件、IP和账户号码。以下是如何在不暴露GDPR的情况下与第三方、承包商和可观察性平台共享日志。

June 27, 20267 分钟
技术

文档格式碎片化问题:为什么您的个人身份信息匿名化需要一致处理 PDF、Word、Excel 和 CSV

单个数据主体访问请求(DSAR)响应可能涉及 Word 合同、PDF 发票、Excel 客户列表和 CSV 导出。对每种格式使用不同的工具会造成合规差距。以下是格式一致性的重要性。

June 25, 20267 分钟
技术

为什么二元PII检测未能满足您的合规团队需求:信心评分的案例

检测/未检测在需要人工判断的合规环境中是不够的。以下是信心评分如何将PII匿名化从一种最佳努力工具转变为可辩护的合规控制。

June 21, 20268 分钟
技术

Presidio 强大,但也是一个为期 3 周的设置项目。这是托管替代方案。

Microsoft Presidio 拥有数千个 GitHub 星标和数百个开放问题。设置复杂性、PySpark 集成开销和 Python 依赖冲突使得生产部署成为一个为期 3 周的项目。托管替代方案的样子是这样的。

June 15, 20266 分钟
技术

从 6 周的 DevOps 地狱到 3 天的集成:托管 PII API 的案例

医疗保健 SaaS 团队在切换到托管 API 之前,花费 6 周时间进行自托管 Presidio 生产部署。托管 API 在 3 天内替代了部署。成本差异:12 个工程周与 €348/年。

June 14, 20267 分钟
技术

‘免费’开源PII检测的真实成本:为什么Presidio的年费用超过€13,000

自托管Presidio需要40-80小时的初始设置和每月5-10小时的持续维护。以€100/小时的工程费率计算,年费用超过€13,200,而托管SaaS的费用仅为€180/年。这是实际的总拥有成本计算。

June 12, 20267 分钟
技术

Presidio的22.7%精确度问题:为什么误报正在破坏您的匿名化结果

2024年的基准测试发现,Presidio的人名识别器在商业文档中实现了22.7%的精确度——这意味着77.3%的检测结果是误报。产品名称、公司名称和城市名称与实际的PII一起被删除。以下是混合检测如何解决这个问题。

June 11, 20267 分钟
技术

可重复的隐私:为什么机器学习团队需要配置预设,而不仅仅是文档

机器学习训练数据的匿名化必须是一致和可重复的。如果数据科学家A和B应用不同的实体类型,训练数据集就会不一致。2024年,CNIL调查了多家AI公司不当使用训练数据。预设是技术解决方案。

June 7, 20266 分钟
技术

构建GDPR安全数据管道:在数据到达数据仓库之前对PII进行匿名化

dbt列标签并不符合GDPR合规性。原始客户数据在标签策略应用之前以未掩码的形式进入您的Snowflake仓库。本文指南涵盖了如何在数据进入分析基础设施之前对管道中的PII进行匿名化。

May 29, 20268 分钟
技术

人工智能时代的FOIA:机构如何将审查时间从数周缩短至数小时

联邦政府在2024年估计花费了5亿美元用于FOIA处理,大部分是手动审查。ARPA-H明确寻求人工智能审查软件来处理日益增长的请求量。以下是批量自动化如何解决FOIA积压危机的方式。

May 28, 20268 分钟
技术

GDPR合规的机器学习训练数据:在不编写代码的情况下匿名化10,000条记录

GDPR限制将个人数据用于机器学习训练,超出其原始收集目的。依赖临时Python脚本的数据科学家创建了一致性差、无法审计的匿名化。批处理在45分钟内生成GDPR合规的训练数据集。

May 27, 20267 分钟
技术

政府机构如何通过批量个人信息遮蔽将FOIA处理时间缩短80%

美国联邦机构在2024财年收到了150万份FOIA请求,平均每份请求的成本为482美元。批量个人信息遮蔽将处理时间从数月缩短到数周,每份请求的成本降低80-90%。以下是具体方法。

May 23, 20269 分钟
技术

Presidio与anonym.legal:支付€3/月与40小时工程的区别

Microsoft Presidio在技术上是免费的,但正确部署需要40-80小时的工程时间。anonym.legal以每月€3的价格提供与托管SaaS相同的机器学习准确性——零设置,零DevOps,零依赖冲突。

May 18, 20268 分钟
技术

隔离隐私:在云无法选择时如何匿名化敏感文档

FedRAMP 和 ITAR 环境有一个共同点——云不是一个选项。根据 GDPR 第 4(5) 条的可逆假名化降低了合规风险。只有 23% 的匿名化工具提供真正的可逆性 (IAPP 2024)。

April 13, 20269 分钟
技术

虚假积极税:为什么您的PII工具的精确度问题成本超出您的想象

Presidio GitHub问题#1071记录了系统性的虚假积极。2024年的一项研究发现混合语言企业数据集的精确度为22.7%。每个虚假积极都是手动审核的负担——在规模上,这是一个无形的合规税,侵蚀了自动化的投资回报率。

April 3, 20268 分钟
技术

中东合规差距:为什么阿拉伯语和希伯来语的个人身份信息对西方隐私工具是隐形的

GDPR并不止于博斯普鲁斯海峡。阿拉伯语和希伯来语在欧盟商业工作流程中系统性地未受到保护。XLM-RoBERTa跨语言检测和RTL文本处理对于中东-欧盟操作并非可选。

April 1, 20268 分钟
技术

混合语言文档问题:为何单语PII工具无法满足瑞士、比利时及跨国组织的需求

72%的欧盟企业同时处理3种以上语言的文档。混合语言文档导致单语NER工具的PII漏检率提高45%。瑞士制药公司使用德语、法语和英语——常常在同一个文件中。

March 26, 20267 分钟
技术

亚太地区数据隐私:为什么您的英语PII工具无法满足泰国、印度尼西亚和越南客户的需求

一家新加坡金融科技公司每月处理50万次跨12种亚太地区语言的支持聊天,发现其仅支持英语的工具在60%的非英语互动中漏掉了PII。PDPA要求在分析之前进行匿名化。

March 24, 20267 分钟
技术

假阳性问题:为什么纯机器学习编辑每小时成本为800美元以及如何解决它

2024年的基准研究发现,Presidio在4,434个样本中生成了13,536个假阳性姓名检测——将代词、船舶名称和国家标记为人名。在每小时200至800美元的律师费用下,这一精度问题代价高昂。

March 23, 20268 分钟
技术

如何通过ISO 27001 + 零知识架构将供应商安全评估从几个月缩短到几周

2025年的调查发现,‘缺乏认可的安全认证’是CISO不合格SaaS供应商的第二大原因。以下是ISO 27001 + 零知识组合在采购中实际解锁的内容。

March 19, 20267 分钟
技术

回答最难的安全问卷问题:为什么零知识架构缩短企业销售周期

企业供应商安全问卷平均有100多个问题。零知识架构明确回答最难的问题——并将安全从销售障碍转变为差异化因素。

March 18, 20267 分钟
技术

LastPass泄露事件应该教会每个企业关于云供应商安全的教训

LastPass加密了用户的数据,但保险库仍然被提取。超过60万条Okta记录随之而来。从2022年到2024年,SaaS安全事件增加了300%。企业尚未吸取的教训。

March 17, 20268 分钟
技术

为什么“我们加密您的数据”不够:如何评估 LastPass 之后的零知识声明

在 LastPass 的“加密”保险库被攻破后,$438M 被盗。随后,遭到 £1.2M 的 ICO 罚款。以下是评估供应商的零知识声明是否真实的检查清单。

March 16, 20268 分钟
技术

LangChain CVE-2025-68664:PII如何通过你的RAG管道泄露

CVSS 9.3。LangChain序列化功能向攻击者控制的LLM公开环境变量和机密。如何检测和修复RAG管道中的PII泄露。

March 16, 20268 分钟
技术

LibreOffice PII 匿名化:如何在 Writer、Calc 和 Impress 中编辑敏感数据

使用 anonym.legal 扩展程序匿名化 LibreOffice 文档中的 PII 的分步指南。285+ 实体类型,5 种方法,在 Writer 中保持格式,在 Windows、macOS 和 Linux 上跨平台。

March 10, 202610 分钟
技术

LibreOffice 与 Microsoft Office PII 编辑对比:逐项功能比较

详细对比 LibreOffice(anonym.legal 扩展程序)与 Microsoft Office(Office 加载项)中的 PII 匿名化功能。相同的引擎,相同的实体类型,不同的文档生态系统。

March 10, 20268 分钟
技术

离线优先的PII匿名化:国防和政府为何需要离线优先工具

41%的企业安全政策禁止对机密文件进行云处理。国防承包商、政府机构和受监管企业如何通过离线优先的PII匿名化实现GDPR和ITAR合规。

March 3, 20268 分钟
技术

可逆与永久:为什么你的编辑工具选择很重要

GDPR 将匿名化与伪匿名化区分开。法院要求提供原始文件。研究需要重新识别。了解何时使用每种方法。

February 27, 20267 分钟
技术

多语言命名实体识别:为什么您训练的英语模型在阿拉伯语上失败

英语命名实体识别模型的准确率达到85-92%。阿拉伯语和中文呢?通常只有50-70%。了解技术挑战以及如何构建真正的多语言个人身份信息检测。

February 26, 20268 分钟
技术

如何安全使用Claude和ChatGPT而不泄露公司机密

开发者使用AI助手的安全指南。设置MCP服务器集成,以在Claude Desktop、Cursor和VS Code中实现透明的PII保护。

February 22, 20267 分钟

今天就开始保护您的数据

285+ 种实体类型,48 种语言,企业级安全,初创公司定价。