世界模型迎来精调新纪元：腾讯开源强化学习后训练框架 WorldCompass-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

世界模型迎来精调新纪元：腾讯开源强化学习后训练框架 WorldCompass

拥抱AI，AIGC最佳实践者

675

腾讯混元3D 团队昨日发布，正式开源业内首个面向世界模型的强化学习（RL）后训练框架——WorldCompass。作为混元世界模型 1.5 的官方强化学习扩展模块，这一框架旨在明显强化世界模型在交互中的准确度与使用体验。

当前多数世界模型以大规模预训练为主，但在遇到用户提出的多步、组合动作指令时，常会出现理解偏差或执行不到位的情况。WorldCompass 的到来，为这一痛点带来了一枚全新的“指南针”。

通过引入强化学习策略，框架可在预训练基础上进行深层次精调，让模型更好地解析并完成复杂动作要求，避免“听不懂指令”的尴尬。评测结果显示，接入 WorldCompass 之后，开源 SOTA 模型 WorldPlay 在最困难的复合动作场景中，交互准确率（Accaction）由约 20% 提升到 55% 以上，增幅超过 35%。

除动作控制更稳外，框架也显著提升了视觉保真度评分（HPSv3），让模型在长距离、长时序的虚拟世界漫游中保持画面与细节的一致性。腾讯混元团队表示，WorldCompass 的发布，意味着世界模型正从单一“预训练阶段”迈入“强化学习精细化调优阶段”。

目前，WorldCompass 已在混元 WorldPlay 模型上完成验证，相关代码与技术报告已全面开源，旨在为全球开发者提供打造更智能、更可控“生成式世界模拟器”的清晰路径。

划重点

🎯 精准控场: 解决了世界模型在复杂动作指令下执行不稳与不准的老难题，准确率实现成倍提升。
🤖 RL 深度赋能: 再次验证强化学习在长时序、交互式世界模型中的巨大调优价值。
🌐 全栈开源: 从代码到实现细节全面开放，助力开发者打造沉浸且可控的虚拟交互体验。
🚀 代际跨越: 技术重心由单纯“堆数据”转向对交互逻辑的精细打磨。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐