GPT 5.5 在 AI 漏洞挑战中领跑，DeepSeek 拿下“性价比之选”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

安全研究员 Kasra Rahjerdi 最近公布了一份备受关注的报告。他搭建了一个刻意保留漏洞的图书评论应用，用来实测多款主流大语言模型在安全推理方面的能力。在这场贴近真实漏洞环境的测试里，研究员在应用文件中暴露了谷歌移动端后端服务的凭据，模型需要完成解包并准确找出这组凭据，才能直接访问数据库。

头部模型正面交锋

在每轮限时 2 小时、预算控制在 10 美元的严格要求下，不同模型之间的表现差异十分明显。其中，GPT-5.5 展现出了最出色的技术能力，在 10 次运行中有 7 次成功完成突破，位居解题率第一。报告提到，GPT-5.5 在完成解包后，几乎能够立刻锁定关键凭据，基本没有受到复杂应用界面或常见接口的干扰。

相比之下，知名模型 Gemini 在这次测试中的发挥则不尽如人意。Gemini 3.1 Pro Preview 几乎在多数任务刚开始时就触发了内置拒绝机制，因此它最终的 Token 消耗量明显低于其他参加测试的模型。