Runway推出通用世界模型GWM-1:用像素预测搭建可推理的虚拟世界

AI视频生成领域的头部公司Runway正式进入“世界模型”赛道。周四,Runway发布其首个通用世界模型GWM-1,称其能通过逐帧的像素预测,搭建一个理解物理规律与时间变化的动态模拟环境。由此,Runway与谷歌、OpenAI等巨头同台竞争,冲刺下一代具身智能与通用人工智能的关键基础设施。

所谓“世界模型”,指的是AI在内部搭建对现实运行机制的可用模拟,这样就不用为每一种真实情境单独训练,也能完成推理、规划与自主行动。Runway认为,通往这一目标的最优路线,是让模型直接学会预测像素——也就是从视频帧里学习物理、光照、几何与因果关系。公司CTO Anastasis Germanidis在直播中强调:“想要做出世界模型,必须先把视频模型做得足够强大。在有足够规模和高质量数据的前提下,模型会自然学到世界如何运转。”

image.png

GWM-1并非单一产品,而是先以三条专线落地:GWM-Worlds、GWM-Robotics和GWM-Avatars。其中,GWM-Worlds是一个交互式应用,用户可用文字提示或图片设定初始场景,模型随即生成一个以24帧/秒、720p运行的动态世界。这个空间不仅保持连贯的几何结构与光照逻辑,还会在用户“探索”过程中实时延展并生成新内容。Runway表示,这既能服务游戏开发,也能作为训练AI智能体在物理世界中导航和决策的虚拟沙盒。

在机器人方向,GWM-Robotics通过合成数据引入天气变化、动态障碍物等变量,帮助机器人在高风险或难以复现的真实场景中先行预演。更关键的是,该系统能识别机器人在什么条件下可能违反安全策略或指令,为可靠性验证提供新工具。Runway计划通过SDK向合作伙伴开放此模块,并透露正与多家机器人公司展开深度合作。

而GWM-Avatars面向生成更像真人、行为更合理的数字人,可用于沟通、培训等场景——这一方向与D-ID、Synthesia、Soul Machines以及谷歌的数字人项目相呼应。虽然三大分支目前仍是独立模型,但Runway明确表示,最终目标是将其融合为统一的通用世界模型。

与此同时,Runway还对本月早些时候发布的Gen4.5视频生成模型进行了重要升级。新版支持原生音频生成、最长一分钟的多镜头合成,能够保持角色一致性,并可添加对白与环境音。用户还可对已有视频的音频进行编辑,或对任意长度的多镜头作品进行细致调整。这些能力让Runway的视频工具更接近竞品Kling近期推出的“一体化视频套件”,也标志着AI视频生成正从创意原型走向可投入生产的工业级工具。目前,升级后的Gen4.5已向所有付费用户开放。

随着世界模型从概念走向工程落地,Runway正尝试以“像素即物理”的思路,搭起连接虚拟仿真与现实行动的桥梁——在这里,AI不仅会看、会说,还开始理解世界如何运转。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享