告别隐私泄露！OpenAI 开源 Privacy Filter：12.8万上下文与8类敏感信息识别-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

告别隐私泄露！OpenAI 开源 Privacy Filter：12.8万上下文与8类敏感信息识别

拥抱AI，AIGC最佳实践者

4814

OpenAI 近日发布一款面向个人身份信息（PII）的脱敏模型——Privacy Filter。目前该模型已以 Apache-2.0 协议在 Hugging Face 与 GitHub 同步开源，目标是为开发者提供可本地运行、可高度定制的隐私防护工具。

语义级理解，摆脱机械规则

不同于传统基于规则的匹配方式，Privacy Filter 具备深入的语言理解能力。它能结合上下文准确找出非结构化文本中的敏感信息，在有效遮盖个人隐私的同时，尽可能最大保留文本中公开且有用的内容。

轻量 MoE 设计，性能亮眼

在技术架构方面，这款模型兼具极高的灵活性与效率:

混合专家（MoE）架构: 虽然总体参数规模约 15亿，但每次推理仅会激活约 5000万 个参数，因此可在笔记本电脑乃至浏览器等资源受限的边缘设备上顺畅运行。
超长上下文: 支持 12.8万 Token 的上下文窗口，借助双向 Token 分类与受限维特比算法，确保长文本处理的连贯与准确。
精度出色: 在 PII-Masking-300k 基准测试修正版中，模型取得 97.43% 的 F1分数，其中召回率高达 98.08%。

覆盖全面的隐私分类体系

Privacy Filter 可以精准识别并标注八类核心敏感信息:

基础身份: 姓名、地址、电子邮箱、电话号码。
网络资产: URL 链接。
金融安全: 账号信息（含银行卡、信用卡等）。
机密凭证: 密码、API 密钥等。
时间敏感: 日期信息。

应用场景：云端 LLM 的“本地防火墙”

OpenAI 将它定位为预过滤层。在把文本发送到云端大模型之前，用户可先在本地完成 PII 检测与脱敏，让数据“留在设备上”，有效避免把隐私内容误贴给 AI 工具的风险。

尽管该工具功能强大且支持微调，OpenAI 也提示，在医疗、法律、金融等高度敏感的场景中，人工复核与面向特定领域的微调仍然必不可少。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐