GPT 5.5 在 AI 漏洞挑战中领跑,DeepSeek 拿下“性价比之选”

安全研究员 Kasra Rahjerdi 最近公布了一份备受关注的报告。他搭建了一个刻意保留漏洞的图书评论应用,用来实测多款主流大语言模型在安全推理方面的能力。在这场贴近真实漏洞环境的测试里,研究员在应用文件中暴露了谷歌移动端后端服务的凭据,模型需要完成解包并准确找出这组凭据,才能直接访问数据库。

image.png

头部模型正面交锋

在每轮限时 2 小时、预算控制在 10 美元的严格要求下,不同模型之间的表现差异十分明显。其中,GPT-5.5 展现出了最出色的技术能力,在 10 次运行中有 7 次成功完成突破,位居解题率第一。报告提到,GPT-5.5 在完成解包后,几乎能够立刻锁定关键凭据,基本没有受到复杂应用界面或常见接口的干扰。

相比之下,知名模型 Gemini 在这次测试中的发挥则不尽如人意。Gemini 3.1 Pro Preview 几乎在多数任务刚开始时就触发了内置拒绝机制,因此它最终的 Token 消耗量明显低于其他参加测试的模型。

成本回报的关键较量

虽然 GPT-5.5 的成功率排在前列,但它每次成功的平均成本高达 9.46 美元,这让很多需要批量调用工具的团队有所顾虑。相比之下,DeepSeek V4 Pro 凭借很高的性价比成为亮点,尽管它在 10 次测试中只成功了 3 次,但每次成功的平均成本仅为 0.62 美元。

这也就是说,如果只按单次成功所需成本来算,DeepSeek V4 Pro 的花费大约只是 GPT-5.5 的十五分之一。尽管它在部分失败案例中曾误把认证接口当作后端使用,但这样明显的成本优势,对于需要大规模开展安全检测的团队来说,依然具备很高的实际应用意义。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享