OpenAI 发布 Privacy Filter:全新 PII 隐私脱敏模型现已开源

OpenAI 近日推出一款名为 Privacy Filter 的模型,用于帮助开发者在文本中识别并脱敏个人身份信息(PII)。该模型规模约 1.5 亿参数,采用混合专家(MoE)架构,并以 Apache 2.0 许可在 Hugging Face 和 GitHub 开源,开发者可下载、定制并用于商业场景。

image.png

Privacy Filter 的关键亮点是其更强的语言理解,能结合上下文在非结构化文本中定位敏感信息。不同于传统的规则式隐私过滤,它在保留公开信息的同时,会对与特定个人相关的敏感数据进行遮盖或脱敏。借此,开发者可在训练流水线、索引流程、日志记录与审核等环节,构建更稳健的隐私保护机制。

该模型支持最高约 12.8 万个 Token 的上下文窗口,并通过受限维特比算法解码出连贯片段。在评测中,Privacy Filter 在 PII-Masking-300k 基准上取得 96% 的 F1;在修正评测中发现的标注问题后,F1 进一步提升至 97.43%,显示了其在识别个人敏感信息方面的高效表现。

OpenAI 强调,Privacy Filter 并不是匿名化工具,也无法替代合规认证。在法律、医疗、金融等高敏感场景中,人工审核以及面向领域的评估与微调仍不可或缺。此外,Privacy Filter 支持在本地设备上运行,更好地守护用户隐私,让用户使用 AI 工具时无需担心个人信息泄露。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享