续航拉满!Anthropic 旗舰 Claude Opus4.5 刷新“长任务”处理纪录

除了比拼大模型的“聪明程度”,能否长时间稳定执行也正成为评估 AI 进化的新标尺。依据人工智能研究机构METR发布的最新基准测试,Anthropic 旗下的顶级模型Claude Opus4.5在超长任务处理方面展现出绝对优势。

image.png

测试结果显示,Claude Opus4.5在维持约50% 成功率的情况下,能够连续处理约4小时49分钟的复杂任务,刷新了行业纪录。所谓“时间分辨率”指标,揭示了模型在不同难度下的耐力边界:面对简单任务(80% 成功率)时,完成仅需约27分钟;而进入高难度、耗时更长的深水区后,Opus4.5 的优势会被进一步放大。

AIbase留意到,尽管数据中出现了模型理论上可连续工作超过20小时的估计值,但METR也坦言,这可能受到样本量较小的影响而产生误差。即便如此,这一进展依然意味着 AI 正在从“短指令回复者”向“长周期项目执行者”加速演变。

同时,也有专家对该测试的局限提出质疑。目前 METR仅覆盖了14个样本,且有人认为这类基准可能被模型“有针对性地刷分”。但不可否认,Claude Opus4.5的亮眼表现,确实为需要高强度、长时程逻辑支持的 AGI 任务带来了新的可能性。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享