Claude Opus 4.7 正式上线:与其更聪明,不如更靠谱

今年Anthropic依旧节奏很密,几乎隔两天就有新动态。刚刚,大家盼望的Claude Opus 4.7正式亮相。更有意思的是,Anthropic在公告里直接说:「这并不是我们最强的模型。」传闻中更猛的Claude Mythos Preview仍暂未放出。可就算这样,4.7仍然备受关注——因为它要解决的,与其说是“更聪明”,不如说是“更靠谱”。

image.png

从各类评测看,成绩很能打。 在硬核编程基准SWE-bench Pro上,4.7从前代的53.4%跃升到64.3%,单次升级拉高近11个点,把GPT-5.4(57.7%)和Gemini3.1Pro(54.2%)甩在后面。视觉推理基准CharXiv由69.1%攀至82.1%,背后是新增2576像素长边的识别能力,清晰度比上一代高出3倍多。工具调用评测MCP-Atlas拿到77.3%,法律AI平台Harvey的BigLaw基准更给出90.9%。不过在Agentic搜索评测BrowseComp里,4.7从83.7%小幅回落到79.3%,被GPT-5.4和Gemini反超——但这恰好体现了它“不瞎编”的性格,信息不全时宁愿报错也不拼凑答案。

更重要的是,它的「气质」变了。 Replit负责人测试后直言:「它会在技术讨论里顶我几句,促成更好的决策,像个更靠谱的同事。」数据科学平台Hex也发现,4.7遇到缺失数据会直接抛错,而不是像旧版本那样塞进一个“看着对但其实错”的备选值。同时,它的任务韧性明显增强——Notion的测试显示,工具出错率降到原来的三分之一;即便工具链崩了,也能自己绕路把任务做完。Vercel甚至观察到一个新习惯:4.7在动手写系统级代码前,会先给自己做一遍数学证明。

image.png

当然,变强也有成本。4.7引入了全新的分词器,同一段文本会比之前多出约1到1.35倍Token。再加上它在复杂任务里更愿意“多想一会儿”,实际开销几乎肯定会上涨。对此,Anthropic新增了xhigh超高级别的思考强度,Claude Code已把所有套餐默认调到这一档;同时上线深度审查指令/ultrareview、面向Max用户的Auto Mode扩展,并开放用于管控Token支出的「任务预算」功能公测。

至于更强的Mythos Preview,本月刚以「Project Glasswing」的名义小范围开放给企业做网络安全研究。因能力过强、尚待完成安全评估,目前仍不对公众放出。

今天的4.7,是Anthropic高频交付节奏下最新的一块压舱石。而Mythos迟早会来——到那时,如今已相当能打的4.7,也许只是个序章。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享