耐力拉满！Anthropic 旗舰模型 Claude Opus4.5 刷新“长任务”处理纪录-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

耐力拉满！Anthropic 旗舰模型 Claude Opus4.5 刷新“长任务”处理纪录

拥抱AI，AIGC最佳实践者

5615

当人们追求大模型“更聪明”时，AI 的持续执行力也正在成为衡量进步的新标准。根据人工智能研究机构METR发布的最新基准，Anthropic 的旗舰模型Claude Opus4.5在超长时间任务上展现出强势表现。

结果显示，Claude Opus4.5在保证50% 成功率的情况下，可连续处理约 4小时49分钟 的复杂流程，刷新了行业纪录。“时间分辨率”这一指标刻画了模型在不同难度下的耐力边界：面对简单任务（80% 成功率）时，仅约27分钟即可完成；而进入更高难度、耗时更长的阶段时，Opus4.5 的优势被显著放大。

有观察指出，虽然后续数据中出现了模型理论上可连续运行超过20小时的数值，但METR也表示，这可能受样本量较小影响而产生偏差。即便如此，这一进展仍然意味着，AI 正在从“短指令答复者”迈向“长周期项目执行者”。

同时，也有专家提醒该测试仍有局限：目前 METR 仅覆盖了14个样本，且有人认为这类基准可能被有针对性地“刷分”。但不可否认的是，Claude Opus4.5的出现，确实为需要高强度、长时程逻辑支撑的 AGI 任务带来了新的可能。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐