Runway推出通用世界模型GWM-1：用像素预测搭建可推理的虚拟世界-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

AI视频生成领域的头部公司Runway正式进入“世界模型”赛道。周四，Runway发布其首个通用世界模型GWM-1，称其能通过逐帧的像素预测，搭建一个理解物理规律与时间变化的动态模拟环境。由此，Runway与谷歌、OpenAI等巨头同台竞争，冲刺下一代具身智能与通用人工智能的关键基础设施。

所谓“世界模型”，指的是AI在内部搭建对现实运行机制的可用模拟，这样就不用为每一种真实情境单独训练，也能完成推理、规划与自主行动。Runway认为，通往这一目标的最优路线，是让模型直接学会预测像素——也就是从视频帧里学习物理、光照、几何与因果关系。公司CTO Anastasis Germanidis在直播中强调：“想要做出世界模型，必须先把视频模型做得足够强大。在有足够规模和高质量数据的前提下，模型会自然学到世界如何运转。”

GWM-1并非单一产品，而是先以三条专线落地：GWM-Worlds、GWM-Robotics和GWM-Avatars。其中，GWM-Worlds是一个交互式应用，用户可用文字提示或图片设定初始场景，模型随即生成一个以24帧/秒、720p运行的动态世界。这个空间不仅保持连贯的几何结构与光照逻辑，还会在用户“探索”过程中实时延展并生成新内容。Runway表示，这既能服务游戏开发，也能作为训练AI智能体在物理世界中导航和决策的虚拟沙盒。

在机器人方向，GWM-Robotics通过合成数据引入天气变化、动态障碍物等变量，帮助机器人在高风险或难以复现的真实场景中先行预演。更关键的是，该系统能识别机器人在什么条件下可能违反安全策略或指令，为可靠性验证提供新工具。Runway计划通过SDK向合作伙伴开放此模块，并透露正与多家机器人公司展开深度合作。

而GWM-Avatars面向生成更像真人、行为更合理的数字人，可用于沟通、培训等场景——这一方向与D-ID、Synthesia、Soul Machines以及谷歌的数字人项目相呼应。虽然三大分支目前仍是独立模型，但Runway明确表示，最终目标是将其融合为统一的通用世界模型。

与此同时，Runway还对本月早些时候发布的Gen4.5视频生成模型进行了重要升级。新版支持原生音频生成、最长一分钟的多镜头合成，能够保持角色一致性，并可添加对白与环境音。用户还可对已有视频的音频进行编辑，或对任意长度的多镜头作品进行细致调整。这些能力让Runway的视频工具更接近竞品Kling近期推出的“一体化视频套件”，也标志着AI视频生成正从创意原型走向可投入生产的工业级工具。目前，升级后的Gen4.5已向所有付费用户开放。

随着世界模型从概念走向工程落地，Runway正尝试以“像素即物理”的思路，搭起连接虚拟仿真与现实行动的桥梁——在这里，AI不仅会看、会说，还开始理解世界如何运转。