高德自研FantasyWorld发布即登顶世界模型榜,阿里空间智能再添捷报!

阿里巴巴旗下的高德地图正式上线自研世界模型“FantasyWorld”。依托海量真实导航数据优势,该模型迅速在国际权威基准WorldScore Leaderboard中拿下综合得分第一,进一步拓展了阿里在AI基础模型领域的布局。FantasyWorld专注高品质3D世界构建,正成为具身智能与自动驾驶赛道的新焦点。

 FantasyWorld的核心技术亮点

FantasyWorld面向具身智能与通用人工智能(AGI),目标是提供高质量的3D世界模型。其关键创新在于:在冻结的视频基础模型主干之上,增添可训练的几何分支,使“视频潜变量”和“隐式3D场”实现联合建模,并可通过一次前向推理完成生成。

image.png

这一架构显著提升了生成视频的视觉真实度,同时明显改善多视角的一致性与几何还原精度。对比近期其他几何一致性方法,FantasyWorld在多视角协同、风格统一以及极端角度(如180°旋转)下的形体与纹理保持方面表现优异。模型产出的3D潜变量可直接解码为深度图或点云,便于下游任务无需额外优化即可使用。

 登顶WorldScore:国际认可的实力背书

WorldScore由斯坦福大学李飞飞团队牵头打造,是统一的世界生成评测基准,覆盖静态/动态场景、可控性、一致性等多维指标。目前,FantasyWorld在综合得分及多项关键维度(如静态世界得分78.55、动态世界得分66.89)均居首,超越多家国内外同类模型。

相关论文已被ICLR2025、NeurIPS2025等顶级会议收录。高德表示模型将于近期开源,推动学术与产业端的协同与共建。

 实际应用落地:飞行街景带来空间智能新体验

FantasyWorld已优先用于高德地图“飞行街景”功能。商家只需上传几段手机拍摄的视频,就能免费生成高保真3D虚拟漫游街景,帮助用户提前“沉浸式”了解餐厅布局、座位区域等细节,同时为线下商家引流增效。

该功能被视作“技术平权”的实践,显著降低专业3D建模门槛。高德也在内部成立具身业务部,探索机器人、机器狗等方向,结合空间智能全面布局物理AI。

 行业影响:世界模型时代加速到来

随着自动驾驶向端到端视觉-语言-行动(VLA)方案演进,以及具身智能的快速发展,对物理真实性与3D一致性的世界模型需求日益重要。FantasyWorld的发布,不仅巩固了阿里在多模态AI的版图,也凸显了中国企业依托真实世界数据的空间智能优势。

AIbase观点:FantasyWorld意味着世界模型从纯视频生成迈向可交互3D模拟的跃迁,将深刻影响AR/VR、机器人导航、数字孪生等领域的未来。借助亿级用户数据沉淀,高德有望在物理AI赛道抢占先机。AIbase将持续跟进其开源进展与更多应用落地,为读者带来深度解析。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享