新研究显示 Pangram 在 AI 文本检测上表现领先

近日,芝加哥大学团队发布研究,比较市面多款商业 AI 文本检测工具,结果差异明显。研究者构建了一个包含 1992 篇人工撰写文本的数据集,覆盖亚马逊商品评价、博客文章、新闻报道、小说片段、餐厅点评和简历等六类内容。同时,他们让四个主流语言模型:GPT-41、Claude Opus4、Claude Sonnet4 和 Gemini2.0Flash 生成对应的 AI 文本作为对照。

为公平评估,团队重点跟踪两项指标:假阳性率(FPR)用于衡量把人类文本误判为 AI 的频次;假阴性率(FNR)则表示漏检 AI 文本的比例。在这次直接对比中,商业工具 Pangram 表现格外亮眼。针对中长文本,Pangram 的 FPR 与 FNR 几近为零;在短文本上,错误率也普遍低于 0.01,仅有 Gemini2.0Flash 在餐厅点评场景的 FNR 为 0.02。

image.png

其他检测工具如 OriginalityAI 和 GPTZero 略逊一筹:它们在较长文本上的 FPR 能维持在 0.01 以下,但面对极短文本时效果不佳。此外,这两款工具更容易受将 AI 文本伪装成人写的“人性化”改写工具影响。

Pangram 在识别 AI 生成文本方面持续稳定,四种模型的文本 FNR 均未超过 0.02。相比之下,OriginalityAI 的结果更受具体生成模型影响;GPTZero 在模型选择上相对稳定,但整体仍不如 Pangram。

研究人员还测试了各工具对抗 StealthGPT 的能力,这类工具能让 AI 文本更难被识别。Pangram 在此类对抗场景下更为稳健,其余检测器则面临更大挑战。

从经济角度看,Pangram 平均每条正确识别的 AI 文本成本为 0.0228 美元,约为 OriginalityAI 的一半、GPTZero 的三分之一。研究同时提出“政策上限”概念,用户可以设定最大可接受的假阳性率,以便更好地调节检测阈值。

image.png

研究团队提醒,这些结果只是当下的一个快照。未来随着检测工具、新 AI 模型与规避技术的快速迭代,势必形成一场“军备竞赛”。他们建议定期开展透明审计,紧跟这一高速变化的领域。

项目:https://pangram.ai/

划重点:

🌟 Pangram 在准确性方面表现突出,假阳性与假阴性率均接近零。  

📊 其他工具处理短文本更易失误,Pangram 的 AI 文本识别优势更明显。  

💰 Pangram 的识别成本最低,性价比高,适合用户实际应用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享