OpenClaw支持“边用边训练”:AReaL v1.0稳定版发布

3月4 日,蚂蚁集团携手清华大学发布开源强化学习训练框架 AReaL v1.0 稳定版。该版本主打“Agent 一键接入 RL 训练”:无需改动业务代码,兼容多种 Agent 框架,让强化学习训练真正开箱即用。

2026年开年以来,Agent 持续走热,LangChain、Claude Code、OpenClaw 等智能体框架发展迅猛,同时也暴露两大痛点。一是接入训练成本高:各框架接口差异大,每接一个都要单独写适配层。二是缺乏持续进化能力:多数 Agent 受底层模型固定权重限制,上线后难以针对场景不断优化,能力上限在交付时就被“锁死”。

AReaL 是首个实现训推全异步、彼此解耦的大模型强化学习系统,支持 Agent 在真实任务交互中收集反馈并持续改进策略。本次 v1.0 让“任意 Agent 零改造接入 RL 训练”落地——在智能体与训练系统之间加入 Proxy Worker 中转层,开发者只需改一个请求地址即可连上训练流程。

1d5592bf-2f9b-4aa3-b99b-3839c6f7384e.png

(图说:AReaL 无缝接入智能体的异步训练架构)

以当下火热的 OpenClaw 为例,开发者只需在其配置文件中把 base_url 和 api_key 指向 AReaL 网关,OpenClaw 就能接入强化学习训练。智能体像平常一样执行任务,用户按周期对完成效果打分,AReaL 在后台自动完成数据采集与模型更新,让智能体在持续使用中不断进化。

AReaL v1.0 也推出原生训练引擎 Archon。它在 PyTorch 原生能力之上实现完整的 5D 并行(数据并行、流水线并行、张量并行、上下文并行、专家并行),降低安装与调试门槛;训练与推理两侧还提供多种后端,方便在不同环境灵活部署。更令人意外的是,如此复杂的分布式系统,从零到正确性验证仅用 1 人·月——32 天内累计改动近百万行代码,完整实现 Archon 引擎,可训练千亿参数 MoE 模型。

取得这一效率的关键,在于 AReaL 集成的一整套 AI 辅助开发体系,让复杂工程开发高度自动化。

b278c32ad83a3898e05ced31b6ceef17.png

AReaL v1.0 引入的 AI 辅助开发流程,为研发者提供从规划、编码、校验到 PR 创建的全链路支撑。尤其在处理 MoE 并行、内存优化、算法实现等核心模块时,专属的 AI 编程助手会像一位资深专家,在代码变更发生时及时给出针对性指导,为每次改动保驾护航,显著降低开发与维护门槛。AReaL 的 AI 辅助编程不仅是提效工具,也能在复杂基础设施工程中承担“可交付”的研发角色,推动下一代 AI 基础设施工程范式升级。

AReaL 团队表示,将继续围绕训练引擎、易用性以及多模态智能体训练等方向快速迭代。目前 AReaL v1.0 的代码与文档已在 inclusionAI 社区开源。

· GitHub 仓库:https://github.com/inclusionAI/AReaL

· 相关论文:https://arxiv.org/abs/2505.24298

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享