AI视频生成领域的头部公司Runway正式进入“世界模型”赛道。周四,Runway发布其首个通用世界模型GWM-1,称其能通过逐帧的像素预测,搭建一个理解物理规律与时间变化的动态模拟环境。由此,Runway与谷歌、OpenAI等巨头同台竞争,冲刺下一代具身智能与通用人工智能的关键基础设施。
所谓“世界模型”,指的是AI在内部搭建对现实运行机制的可用模拟,这样就不用为每一种真实情境单独训练,也能完成推理、规划与自主行动。Runway认为,通往这一目标的最优路线,是让模型直接学会预测像素——也就是从视频帧里学习物理、光照、几何与因果关系。公司CTO Anastasis Germanidis在直播中强调:“想要做出世界模型,必须先把视频模型做得足够强大。在有足够规模和高质量数据的前提下,模型会自然学到世界如何运转。”

GWM-1并非单一产品,而是先以三条专线落地:GWM-Worlds、GWM-Robotics和GWM-Avatars。其中,GWM-Worlds是一个交互式应用,用户可用文字提示或图片设定初始场景,模型随即生成一个以24帧/秒、720p运行的动态世界。这个空间不仅保持连贯的几何结构与光照逻辑,还会在用户“探索”过程中实时延展并生成新内容。Runway表示,这既能服务游戏开发,也能作为训练AI智能体在物理世界中导航和决策的虚拟沙盒。
在机器人方向,GWM-Robotics通过合成数据引入天气变化、动态障碍物等变量,帮助机器人在高风险或难以复现的真实场景中先行预演。更关键的是,该系统能识别机器人在什么条件下可能违反安全策略或指令,为可靠性验证提供新工具。Runway计划通过SDK向合作伙伴开放此模块,并透露正与多家机器人公司展开深度合作。
而GWM-Avatars面向生成更像真人、行为更合理的数字人,可用于沟通、培训等场景——这一方向与D-ID、Synthesia、Soul Machines以及谷歌的数字人项目相呼应。虽然三大分支目前仍是独立模型,但Runway明确表示,最终目标是将其融合为统一的通用世界模型。
与此同时,Runway还对本月早些时候发布的Gen4.5视频生成模型进行了重要升级。新版支持原生音频生成、最长一分钟的多镜头合成,能够保持角色一致性,并可添加对白与环境音。用户还可对已有视频的音频进行编辑,或对任意长度的多镜头作品进行细致调整。这些能力让Runway的视频工具更接近竞品Kling近期推出的“一体化视频套件”,也标志着AI视频生成正从创意原型走向可投入生产的工业级工具。目前,升级后的Gen4.5已向所有付费用户开放。
随着世界模型从概念走向工程落地,Runway正尝试以“像素即物理”的思路,搭起连接虚拟仿真与现实行动的桥梁——在这里,AI不仅会看、会说,还开始理解世界如何运转。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?