腾讯混元3D 团队昨日发布,正式开源业内首个面向世界模型的强化学习(RL)后训练框架——WorldCompass。作为混元世界模型 1.5 的官方强化学习扩展模块,这一框架旨在明显强化世界模型在交互中的准确度与使用体验。
当前多数世界模型以大规模预训练为主,但在遇到用户提出的多步、组合动作指令时,常会出现理解偏差或执行不到位的情况。WorldCompass 的到来,为这一痛点带来了一枚全新的“指南针”。

通过引入强化学习策略,框架可在预训练基础上进行深层次精调,让模型更好地解析并完成复杂动作要求,避免“听不懂指令”的尴尬。评测结果显示,接入 WorldCompass 之后,开源 SOTA 模型 WorldPlay 在最困难的复合动作场景中,交互准确率(Accaction)由约 20% 提升到 55% 以上,增幅超过 35%。
除动作控制更稳外,框架也显著提升了视觉保真度评分(HPSv3),让模型在长距离、长时序的虚拟世界漫游中保持画面与细节的一致性。腾讯混元团队表示,WorldCompass 的发布,意味着世界模型正从单一“预训练阶段”迈入“强化学习精细化调优阶段”。
目前,WorldCompass 已在混元 WorldPlay 模型上完成验证,相关代码与技术报告已全面开源,旨在为全球开发者提供打造更智能、更可控“生成式世界模拟器”的清晰路径。
划重点
-
🎯 精准控场: 解决了世界模型在复杂动作指令下执行不稳与不准的老难题,准确率实现成倍提升。
-
🤖 RL 深度赋能: 再次验证强化学习在长时序、交互式世界模型中的巨大调优价值。
-
🌐 全栈开源: 从代码到实现细节全面开放,助力开发者打造沉浸且可控的虚拟交互体验。
-
🚀 代际跨越: 技术重心由单纯“堆数据”转向对交互逻辑的精细打磨。


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?