OpenClaw支持“边用边训练”：AReaL v1.0稳定版发布-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

3月4 日，蚂蚁集团携手清华大学发布开源强化学习训练框架 AReaL v1.0 稳定版。该版本主打“Agent 一键接入 RL 训练”：无需改动业务代码，兼容多种 Agent 框架，让强化学习训练真正开箱即用。

2026年开年以来，Agent 持续走热，LangChain、Claude Code、OpenClaw 等智能体框架发展迅猛，同时也暴露两大痛点。一是接入训练成本高：各框架接口差异大，每接一个都要单独写适配层。二是缺乏持续进化能力：多数 Agent 受底层模型固定权重限制，上线后难以针对场景不断优化，能力上限在交付时就被“锁死”。

AReaL 是首个实现训推全异步、彼此解耦的大模型强化学习系统，支持 Agent 在真实任务交互中收集反馈并持续改进策略。本次 v1.0 让“任意 Agent 零改造接入 RL 训练”落地——在智能体与训练系统之间加入 Proxy Worker 中转层，开发者只需改一个请求地址即可连上训练流程。

（图说：AReaL 无缝接入智能体的异步训练架构）

以当下火热的 OpenClaw 为例，开发者只需在其配置文件中把 base_url 和 api_key 指向 AReaL 网关，OpenClaw 就能接入强化学习训练。智能体像平常一样执行任务，用户按周期对完成效果打分，AReaL 在后台自动完成数据采集与模型更新，让智能体在持续使用中不断进化。

AReaL v1.0 也推出原生训练引擎 Archon。它在 PyTorch 原生能力之上实现完整的 5D 并行（数据并行、流水线并行、张量并行、上下文并行、专家并行），降低安装与调试门槛；训练与推理两侧还提供多种后端，方便在不同环境灵活部署。更令人意外的是，如此复杂的分布式系统，从零到正确性验证仅用 1 人·月——32 天内累计改动近百万行代码，完整实现 Archon 引擎，可训练千亿参数 MoE 模型。

取得这一效率的关键，在于 AReaL 集成的一整套 AI 辅助开发体系，让复杂工程开发高度自动化。

AReaL v1.0 引入的 AI 辅助开发流程，为研发者提供从规划、编码、校验到 PR 创建的全链路支撑。尤其在处理 MoE 并行、内存优化、算法实现等核心模块时，专属的 AI 编程助手会像一位资深专家，在代码变更发生时及时给出针对性指导，为每次改动保驾护航，显著降低开发与维护门槛。AReaL 的 AI 辅助编程不仅是提效工具，也能在复杂基础设施工程中承担“可交付”的研发角色，推动下一代 AI 基础设施工程范式升级。

AReaL 团队表示，将继续围绕训练引擎、易用性以及多模态智能体训练等方向快速迭代。目前 AReaL v1.0 的代码与文档已在 inclusionAI 社区开源。

· GitHub 仓库:https://github.com/inclusionAI/AReaL

· 相关论文:https://arxiv.org/abs/2505.24298