世界模型迎来精调新纪元:腾讯开源强化学习后训练框架 WorldCompass

腾讯混元3D 团队昨日发布,正式开源业内首个面向世界模型的强化学习(RL)后训练框架——WorldCompass。作为混元世界模型 1.5 的官方强化学习扩展模块,这一框架旨在明显强化世界模型在交互中的准确度与使用体验。

当前多数世界模型以大规模预训练为主,但在遇到用户提出的多步、组合动作指令时,常会出现理解偏差或执行不到位的情况。WorldCompass 的到来,为这一痛点带来了一枚全新的“指南针”。

image.png

通过引入强化学习策略,框架可在预训练基础上进行深层次精调,让模型更好地解析并完成复杂动作要求,避免“听不懂指令”的尴尬。评测结果显示,接入 WorldCompass 之后,开源 SOTA 模型 WorldPlay 在最困难的复合动作场景中,交互准确率(Accaction)由约 20% 提升到 55% 以上,增幅超过 35%。

除动作控制更稳外,框架也显著提升了视觉保真度评分(HPSv3),让模型在长距离、长时序的虚拟世界漫游中保持画面与细节的一致性。腾讯混元团队表示,WorldCompass 的发布,意味着世界模型正从单一“预训练阶段”迈入“强化学习精细化调优阶段”。

目前,WorldCompass 已在混元 WorldPlay 模型上完成验证,相关代码与技术报告已全面开源,旨在为全球开发者提供打造更智能、更可控“生成式世界模拟器”的清晰路径。

划重点

  • 🎯 精准控场: 解决了世界模型在复杂动作指令下执行不稳与不准的老难题,准确率实现成倍提升。

  • 🤖 RL 深度赋能: 再次验证强化学习在长时序、交互式世界模型中的巨大调优价值。

  • 🌐 全栈开源: 从代码到实现细节全面开放,助力开发者打造沉浸且可控的虚拟交互体验。

  • 🚀 代际跨越: 技术重心由单纯“堆数据”转向对交互逻辑的精细打磨。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享