Cursor 发布 Composer 2：编码成绩压过 Claude Opus 4.6？基准测试在圈内引发新争论-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

3 月 19 日，Cursor 官方宣布自研编码模型 Composer 2 正式上线。消息一出，开发者社区立刻热闹起来——按 Cursor 给出的数据，这款模型在 Terminal-Bench 2.0 上拿到 61.7%，在相同测试设置下高于 Claude Opus 4.6 的 58.0%。

Anthropic 的王牌会被一个 IDE 内置模型反超？传开后，讨论自然接踵而至。

三项关键成绩

Cursor 此次公开了三组官方基准结果：

Terminal-Bench 2.0（代理式终端编码任务）：Composer 2 达到 61.7%，高于 Claude Opus 4.6 的 58.0%；而 OpenAI GPT-5.4 以 75.1% 暂居第一。
CursorBench（Cursor 内部真实编程场景）：Composer 2 获得 61.3%，较上一代 Composer 1.5 的 44.2% 提升明显，同样超过 Claude Opus 4.6 的 58.2%。
SWE-bench Multilingual（多语言软件工程）：Composer 2 取得 73.7%，相较前代也有大幅进步。

但需要留意的是：Anthropic 曾公布 Claude Opus 4.6 在优化配置下的 Terminal-Bench 2.0 成绩为 65.4%，明显高于本次 Cursor 环境中的 58.0%。差异主要来自测试框架与设置——Cursor 使用 Harbor 等第三方 agent 环境，进行 5 轮取平均；而 Anthropic 的数字基于其自家优化方案。两边不在同一参照系，直接对比并不完全等价。Cursor 在公告中也注明了“结果依赖 agent、harness 和设置”。

成本低至 Opus 4.6 的十分之一

真正的杀手锏是性价比。

Composer 2 定价为每百万输入 / 输出 tokens 分别 $0.50 / $2.50；对比 Claude Opus 4.6 的 $5 / $25 与 GPT-5.4 的 $2.5 / $15，优势非常直观。Cursor 表示，Composer 2 从设计之初就面向长时程编码任务，结合自研的强化学习（RL）和“self-summarization”技术，把速度与成本同时降到更低——官方用语是“前沿智能 + 极致速度”。

Composer 2 是 Cursor 的第三代自研模型，前两代分别是 2025 年 10 月的 Composer 1 和 2026 年 2 月的 1.5 版。本次升级重点围绕“long-horizon tasks”（长周期任务），并将更快的轻量版本设为 Cursor IDE 的默认模型。

这次“反超”意味着什么

Cursor 敢把自家模型与 Opus 4.6 正面比较，折射出 AI 编码工具赛道的策略分化。

OpenAI、Anthropic 主攻通用前沿能力，而 Cursor 这类垂直工具厂商选择在特定任务上打磨到足够强，再通过价格优势形成差异化。VentureBeat、The New Stack 等媒体在跟进时普遍认为，Composer 2 可能加速“多模型路由”的落地——复杂推理仍交给 Opus 或 GPT，日常高频编码切回 Composer 2，效率与成本两头兼顾。

Claude Opus 4.6 于今年 2 月 5 日发布，在当时的 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA 等榜单上处于领先。Cursor 公布的这批数据，至少在编码这一细分场景，为此前的结论带来新变量。

目前开发者反馈整体偏正面，但也有人表示要在真实项目中跑一跑再做判断——这也合理，基准毕竟只是参考。Cursor 现已向订阅用户开放 Composer 2 在 IDE 内的免费试用。

数据来源：Cursor 官方公告及主流科技媒体报道，截至 2026 年 3 月 20 日。更多实时榜单可参考 tbench.ai 或 Cursor 官网。