阿里巴巴旗下高德地图正式上线自研世界模型“FantasyWorld”。依托海量、真实的导航数据优势,该模型迅速登上国际权威基准WorldScore Leaderboard综合得分第一,进一步拓展了阿里在AI基础模型领域的版图。FantasyWorld专注高品质3D世界构建,正成为具身智能与自动驾驶赛道的新热点。
FantasyWorld的核心技术亮点
FantasyWorld致力于为具身智能与通用人工智能(AGI)提供高质量3D世界模型。其关键创新在于:在冻结的视频基础模型骨干上,新增可训练的几何分支,同时对“视频潜变量”和“隐式3D场”进行联合建模,一次前向推理即可完成。

这一架构显著提升生成视频的视觉真实度,并大幅改善多视角一致性与几何保真度。相较近期的其他几何一致性方案,FantasyWorld在多视角协同、风格统一,以及极端视角(如180°旋转)下的物体形状与纹理保持方面表现更为稳定。模型生成的3D潜变量可直接解码为深度图或点云,支持下游任务无需额外优化。
登顶WorldScore:国际认可的实力背书
WorldScore由斯坦福大学李飞飞团队主导,是统一的世界生成评测基准,覆盖静态/动态场景、可控性、一致性等多维度指标。目前,FantasyWorld在综合得分及关键指标(如静态世界得分78.55、动态世界得分66.89)上位居榜首,超越多家国内外模型。
相关论文已被ICLR2025、NeurIPS2025等顶会收录。高德方面表示模型将于近期开源,进一步促进学术与产业合作。
实际应用落地:飞行街景带来空间智能新体验
FantasyWorld已率先应用于高德地图“飞行街景”。商家只需上传几段手机视频,即可免费生成高保真3D虚拟漫游街景,用户可提前“身临其境”了解餐厅布局、座位区等细节,同时帮助线下商家提升流量。
这一功能被视为“技术平权”的体现,显著降低专业3D建模门槛。高德还在内部成立具身业务部,探索机器人、机器狗等方向,结合空间智能全面迈向物理AI。
行业影响:世界模型时代正加速到来
随着自动驾驶转向端到端视觉-语言-行动(VLA)方案,以及具身智能的高速发展,追求物理真实与3D一致性的世界模型愈发关键。FantasyWorld的推出,不仅强化了阿里在多模态AI的布局,也凸显了中国企业在真实世界数据驱动下的空间智能优势。
行业观察:FantasyWorld标志着世界模型从视频生成迈向可交互3D模拟的跃迁,将深刻影响AR/VR、机器人导航、数字孪生等领域的未来。依托亿级用户数据积累,高德有望在物理AI赛道占据先机。后续将持续关注其开源进展与更多应用落地,为读者带来更深入的解读。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?