OpenAI 近日推出一款名为 Privacy Filter 的模型,用于帮助开发者在文本中识别并脱敏个人身份信息(PII)。该模型规模约 1.5 亿参数,采用混合专家(MoE)架构,并以 Apache 2.0 许可在 Hugging Face 和 GitHub 开源,开发者可下载、定制并用于商业场景。

Privacy Filter 的关键亮点是其更强的语言理解,能结合上下文在非结构化文本中定位敏感信息。不同于传统的规则式隐私过滤,它在保留公开信息的同时,会对与特定个人相关的敏感数据进行遮盖或脱敏。借此,开发者可在训练流水线、索引流程、日志记录与审核等环节,构建更稳健的隐私保护机制。
该模型支持最高约 12.8 万个 Token 的上下文窗口,并通过受限维特比算法解码出连贯片段。在评测中,Privacy Filter 在 PII-Masking-300k 基准上取得 96% 的 F1;在修正评测中发现的标注问题后,F1 进一步提升至 97.43%,显示了其在识别个人敏感信息方面的高效表现。
OpenAI 强调,Privacy Filter 并不是匿名化工具,也无法替代合规认证。在法律、医疗、金融等高敏感场景中,人工审核以及面向领域的评估与微调仍不可或缺。此外,Privacy Filter 支持在本地设备上运行,更好地守护用户隐私,让用户使用 AI 工具时无需担心个人信息泄露。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?