Claude Opus 4.7 正式上线：与其更聪明，不如更靠谱-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

今年Anthropic依旧节奏很密，几乎隔两天就有新动态。刚刚，大家盼望的Claude Opus 4.7正式亮相。更有意思的是，Anthropic在公告里直接说：「这并不是我们最强的模型。」传闻中更猛的Claude Mythos Preview仍暂未放出。可就算这样，4.7仍然备受关注——因为它要解决的，与其说是“更聪明”，不如说是“更靠谱”。

从各类评测看，成绩很能打。 在硬核编程基准SWE-bench Pro上，4.7从前代的53.4%跃升到64.3%，单次升级拉高近11个点，把GPT-5.4（57.7%）和Gemini3.1Pro（54.2%）甩在后面。视觉推理基准CharXiv由69.1%攀至82.1%，背后是新增2576像素长边的识别能力，清晰度比上一代高出3倍多。工具调用评测MCP-Atlas拿到77.3%，法律AI平台Harvey的BigLaw基准更给出90.9%。不过在Agentic搜索评测BrowseComp里，4.7从83.7%小幅回落到79.3%，被GPT-5.4和Gemini反超——但这恰好体现了它“不瞎编”的性格，信息不全时宁愿报错也不拼凑答案。

更重要的是，它的「气质」变了。 Replit负责人测试后直言：「它会在技术讨论里顶我几句，促成更好的决策，像个更靠谱的同事。」数据科学平台Hex也发现，4.7遇到缺失数据会直接抛错，而不是像旧版本那样塞进一个“看着对但其实错”的备选值。同时，它的任务韧性明显增强——Notion的测试显示，工具出错率降到原来的三分之一；即便工具链崩了，也能自己绕路把任务做完。Vercel甚至观察到一个新习惯：4.7在动手写系统级代码前，会先给自己做一遍数学证明。

当然，变强也有成本。4.7引入了全新的分词器，同一段文本会比之前多出约1到1.35倍Token。再加上它在复杂任务里更愿意“多想一会儿”，实际开销几乎肯定会上涨。对此，Anthropic新增了xhigh超高级别的思考强度，Claude Code已把所有套餐默认调到这一档；同时上线深度审查指令/ultrareview、面向Max用户的Auto Mode扩展，并开放用于管控Token支出的「任务预算」功能公测。

至于更强的Mythos Preview，本月刚以「Project Glasswing」的名义小范围开放给企业做网络安全研究。因能力过强、尚待完成安全评估，目前仍不对公众放出。

今天的4.7，是Anthropic高频交付节奏下最新的一块压舱石。而Mythos迟早会来——到那时，如今已相当能打的4.7，也许只是个序章。