续航拉满！Anthropic 旗舰 Claude Opus4.5 刷新“长任务”处理纪录-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

除了比拼大模型的“聪明程度”，能否长时间稳定执行也正成为评估 AI 进化的新标尺。依据人工智能研究机构METR发布的最新基准测试，Anthropic 旗下的顶级模型Claude Opus4.5在超长任务处理方面展现出绝对优势。

测试结果显示，Claude Opus4.5在维持约50% 成功率的情况下，能够连续处理约4小时49分钟的复杂任务，刷新了行业纪录。所谓“时间分辨率”指标，揭示了模型在不同难度下的耐力边界：面对简单任务（80% 成功率）时，完成仅需约27分钟；而进入高难度、耗时更长的深水区后，Opus4.5 的优势会被进一步放大。

AIbase留意到，尽管数据中出现了模型理论上可连续工作超过20小时的估计值，但METR也坦言，这可能受到样本量较小的影响而产生误差。即便如此，这一进展依然意味着 AI 正在从“短指令回复者”向“长周期项目执行者”加速演变。

同时，也有专家对该测试的局限提出质疑。目前 METR仅覆盖了14个样本，且有人认为这类基准可能被模型“有针对性地刷分”。但不可否认，Claude Opus4.5的亮眼表现，确实为需要高强度、长时程逻辑支持的 AGI 任务带来了新的可能性。