Cursor 发布 Composer 2:编码成绩压过 Claude Opus 4.6?基准测试在圈内引发新争论

3 月 19 日,Cursor 官方宣布自研编码模型 Composer 2 正式上线。消息一出,开发者社区立刻热闹起来——按 Cursor 给出的数据,这款模型在 Terminal-Bench 2.0 上拿到 61.7%,在相同测试设置下高于 Claude Opus 4.6 的 58.0%

Anthropic 的王牌会被一个 IDE 内置模型反超?传开后,讨论自然接踵而至。

QQ_1773968400375.png

三项关键成绩

Cursor 此次公开了三组官方基准结果:

  • Terminal-Bench 2.0(代理式终端编码任务):Composer 2 达到 61.7%,高于 Claude Opus 4.6 的 58.0%;而 OpenAI GPT-5.4 以 75.1% 暂居第一。
  • CursorBench(Cursor 内部真实编程场景):Composer 2 获得 61.3%,较上一代 Composer 1.5 的 44.2% 提升明显,同样超过 Claude Opus 4.6 的 58.2%
  • SWE-bench Multilingual(多语言软件工程):Composer 2 取得 73.7%,相较前代也有大幅进步。

但需要留意的是:Anthropic 曾公布 Claude Opus 4.6 在优化配置下的 Terminal-Bench 2.0 成绩为 65.4%,明显高于本次 Cursor 环境中的 58.0%。差异主要来自测试框架与设置——Cursor 使用 Harbor 等第三方 agent 环境,进行 5 轮取平均;而 Anthropic 的数字基于其自家优化方案。两边不在同一参照系,直接对比并不完全等价。Cursor 在公告中也注明了“结果依赖 agent、harness 和设置”。

成本低至 Opus 4.6 的十分之一

真正的杀手锏是性价比。

Composer 2 定价为每百万输入 / 输出 tokens 分别 $0.50 / $2.50;对比 Claude Opus 4.6 的 $5 / $25 与 GPT-5.4 的 $2.5 / $15,优势非常直观。Cursor 表示,Composer 2 从设计之初就面向长时程编码任务,结合自研的强化学习(RL)和“self-summarization”技术,把速度与成本同时降到更低——官方用语是“前沿智能 + 极致速度”。

Composer 2 是 Cursor 的第三代自研模型,前两代分别是 2025 年 10 月的 Composer 1 和 2026 年 2 月的 1.5 版。本次升级重点围绕“long-horizon tasks”(长周期任务),并将更快的轻量版本设为 Cursor IDE 的默认模型。

这次“反超”意味着什么

Cursor 敢把自家模型与 Opus 4.6 正面比较,折射出 AI 编码工具赛道的策略分化。

OpenAI、Anthropic 主攻通用前沿能力,而 Cursor 这类垂直工具厂商选择在特定任务上打磨到足够强,再通过价格优势形成差异化。VentureBeat、The New Stack 等媒体在跟进时普遍认为,Composer 2 可能加速“多模型路由”的落地——复杂推理仍交给 Opus 或 GPT,日常高频编码切回 Composer 2,效率与成本两头兼顾。

Claude Opus 4.6 于今年 2 月 5 日发布,在当时的 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA 等榜单上处于领先。Cursor 公布的这批数据,至少在编码这一细分场景,为此前的结论带来新变量。

目前开发者反馈整体偏正面,但也有人表示要在真实项目中跑一跑再做判断——这也合理,基准毕竟只是参考。Cursor 现已向订阅用户开放 Composer 2 在 IDE 内的免费试用。

数据来源:Cursor 官方公告及主流科技媒体报道,截至 2026 年 3 月 20 日。更多实时榜单可参考 tbench.ai 或 Cursor 官网。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享