大语言模型(LLM)的能力边界到底在哪里?网络安全场景,正在成为检验它们真实推理水平和复杂逻辑能力的“高压考场”。近日,安全研究员 Kasra Rahjerdi 公布了一份引发业内热议的测试报告。他通过搭建一个故意保留关键漏洞的图书评论 APK,对全球主流大语言模型发起了一场贴近实战的模拟黑客攻击测试,直观展示了不同模型在安全推理和漏洞利用方面的真实表现。
在这场单次预算10美元、限时2小时的网络攻防测试里,研究员刻意在应用安装包(APK)中暴露了谷歌移动端后端服务 Firebase 的凭据。模型需要像专业白帽黑客那样,先完成应用解包并准确发现这组凭据,接着绕过已加固的应用程序编程接口(API),直接实现对底层数据库的越权访问。整轮测试总花费达到1500美元,多款头部模型的表现也出现了明显的两极分化。

在最关键的“破局率”指标上,尚未正式发布的 GPT-5.5表现出了非常强的安全推理实力。在10次独立测试中,GPT-5.5一共完成7次成功利用,解题成功率达到70%,排在全场首位。评测显示,GPT-5.5在解包 APK 之后,能够迅速锁定 Firebase 这个关键突破点,几乎不会被复杂的应用界面或常规 API 干扰。不过,出色的表现背后也对应着较高成本,其单次成功利用的平均费用达9.46美元,已经非常接近预算上限。
相比之下,国产模型 DeepSeek V4 Pro 则凭借突出的成本优势赢得了不少关注。虽然它在10次测试中只成功了3次,但单次成功的平均 Tokens 成本仅为0.62美元,大约只有 GPT-5.5的十五分之一。在失败的几轮里,DeepSeek V4 Pro 也有5次顺利触达到 Firebase 这个核心点,只是在后续利用凭据访问后端接口时,路线配置上出现了偶发失误。研究员指出,对于需要大规模、高频率开展网络安全自动化审计的工程团队来说,DeepSeek 展现出的低成本优势具有很高的实际应用意义。
有的模型表现亮眼,也有模型因为“太谨慎”而失分。在中间梯队中,Claude Sonnet 4.6和 Claude Opus 4.8各自取得了2次成功。其中能力很强的 Opus 多次逼近最终答案,但由于自身安全护栏过于严格,频繁触发中断,影响了最终结果。至于谷歌的 Gemini 3.1 Pro Preview,则几乎走向了另一个方向,往往在测试开局阶段就触发安全机制并拒绝继续执行,Tokens 消耗中位数只有约9000,明显低于其他模型动辄10万以上的消耗,最终遗憾未能取得成功。
这场网络安全攻防测试,不只是对大模型底层逻辑推理能力的一次高强度检验,也在一定程度上预示了自动化网络安全审计未来的发展方向。随着大模型持续深入垂直领域,未来的安全防护和漏洞挖掘,或许会逐步演变成一场比拼算力与模型策略的“数字兵团”对抗。


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?