耐力拉满!Anthropic 旗舰模型 Claude Opus4.5 刷新“长任务”处理纪录

当人们追求大模型“更聪明”时,AI 的持续执行力也正在成为衡量进步的新标准。根据人工智能研究机构METR发布的最新基准,Anthropic 的旗舰模型Claude Opus4.5在超长时间任务上展现出强势表现。

image.png

结果显示,Claude Opus4.5在保证50% 成功率的情况下,可连续处理约 4小时49分钟 的复杂流程,刷新了行业纪录。“时间分辨率”这一指标刻画了模型在不同难度下的耐力边界:面对简单任务(80% 成功率)时,仅约27分钟即可完成;而进入更高难度、耗时更长的阶段时,Opus4.5 的优势被显著放大。

有观察指出,虽然后续数据中出现了模型理论上可连续运行超过20小时的数值,但METR也表示,这可能受样本量较小影响而产生偏差。即便如此,这一进展仍然意味着,AI 正在从“短指令答复者”迈向“长周期项目执行者”。

同时,也有专家提醒该测试仍有局限:目前 METR 仅覆盖了14个样本,且有人认为这类基准可能被有针对性地“刷分”。但不可否认的是,Claude Opus4.5的出现,确实为需要高强度、长时程逻辑支撑的 AGI 任务带来了新的可能。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享