混元重建后首次亮相并开源 Hy3 preview：聚焦全面实用，Agent 能力大幅跃升-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

4月23日，腾讯正式发布并开源混元 Hy3preview 语言模型。这是一款融合快思与慢思的混合专家模型（MoE），总参数295B、激活参数21B，最大可支持256K上下文。这是混元在重建后推出的第一个模型，也是迄今最智能的一代，在复杂推理、指令遵循、上下文学习、代码与智能体等方面以及推理表现上都有大幅跃升。

2026年2月，腾讯混元完成预训练与强化学习基础设施的重构，并明确了面向实用的三项原则:

1、能力体系化：不鼓励“偏科”。即便是代码智能体这类单一应用，也同时依赖推理、长文处理、指令、对话、编程、工具等多种能力的深度协同。

2、评测真实性：主动跳出容易被“刷榜”的公开榜单，通过自建题目、最新考试、人工评测与产品众测等多种方式衡量与改进模型的“真实战斗力”。

3、追求性价比：实用必须兼顾商业可行。通过模型架构与推理框架的深度协同，显著降低任务成本，让智能“用得起、用得好”。

Hy3preview 可视作混元快速迈向“实用大模型”、解决真实世界问题的一个起点。

腾讯首席AI科学家姚顺雨表示，Hy3preview 是混元大模型重建后的第一步。我们希望借由这次开源与发布，得到开源社区与用户的真实反馈，进一步打磨 Hy3 正式版的实用性。同时，我们也在持续扩大预训练与强化学习规模，抬高模型智能上限，并通过与腾讯众多产品的深度 Co-Design，不断提升模型在真实场景中的综合表现，探索具有特色的模型能力。

目前，Hy3preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等平台率先上线，微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多条主线产品也正陆续接入。此外，Hy3preview 能连接常见的开源智能体工具，如 OpenClaw、OpenCode、KiloCode 等，并已上架腾讯云大模型服务平台 TokenHub。

Hy3preview 聚焦全面实用，Agent 能力显著增强

多项评测结果显示，Hy3preview 的整体能力全面升级。

1、上下文学习与指令遵循表现出色

在真实的生产与生活场景中，理解冗长杂乱的上下文并遵从复杂规则，是模型面临的首要难题。基于腾讯的业务洞察，混元提出了 CL-bench 和 CL-bench-Life，用于更真实地评估模型的上下文学习能力。Hy3preview 在此方面实现了显著提升，指令遵循也更加稳定。

2、复杂推理表现突出，清华数学博资考国内分数最高

复杂推理是通向多种问题解决的底座。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务上表现突出，并在最新的清华大学求真书院数学博士资格考（26春）与全国中学生生物学联赛（CHSBO2025）中取得优异成绩，展现出可泛化的强推理能力。

3、代码与智能体提升最明显，呈现高性价比

代码与智能体是 Hy3preview 进步最大的方向。得益于预训练与强化学习框架的重建，以及强化学习任务规模的扩大，混元在 SWE-Bench Verified、Terminal-Bench2.0 等主流代码智能体基准，以及 BrowseComp、WideSearch 等主流搜索智能体基准上取得了具备竞争力的成绩。

在数字世界里，代码侧重开发环境中的执行能力，搜索更关注在开放信息空间里的检索、筛选与整合。二者共同决定了模型在复杂智能体场景（如 OpenClaw）中的实际可用性。Hy3preview 在 ClawEval 与 WildClawBench 等评测中表现亮眼，说明其智能体能力正在稳步向“全面、实用”迈进。

除了公开榜单，混元还构建了多套内部评测，对模型在真实开发场景下的表现进行验证。结果显示，无论是在后端工程任务集 Hy-Backend、贴近真实用户开发交互的 Hy-Vibe Bench，还是高难度软件工程任务集 Hy-SWE Max 上，Hy3 preview 都展现出强劲竞争力。

横向比较各开源模型的规模与智能体综合表现，Hy3preview 显示出突出的性价比。

腾讯核心业务已全面接入，多条主线 AI 产品验证收益明显

在正式上线前，Hy3preview 已在腾讯主要 AI 业务中进行产品测试，并获得明显正向收益。

在元宝端，混元与元宝开展深度 Co-Design：一方面定向提升意图理解精准度、文本创作质量、深度搜索等硬指标；另一方面在文风、文笔、情商、内容组织与专业度上进行了细致调优。模型与产品的深度协同，为用户带来更聪明、更“像真人”的交互体验。

在 ima 的知识库问答与通用问答场景中，测试表明 Hy3preview 的长文处理能力突出，尤其在检索类任务上，回答的信息准确度、覆盖度与完整性表现更佳。

在 CodeBuddy、WorkBuddy 上，Hy3preview 首 token 延迟下降 54%、端到端时长缩短 47%、成功率提升至 99.99%+。真实用户环境中，Hy3 preview 已稳定驱动长达 495 步的复杂 Agent 工作流，覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。

在公众号 AI 分身与 AI 客服专项评测中，Hy3preview 相比 Hy2 实现全面升级。新模型在用户意图把握、复杂上下文承接与知识信息组织方面更成熟；面对模糊提问、短句追问与多轮对话时，能够更准确理解诉求，并给出更清晰、更稳定的答复。结合知识库、用户记忆与上下文生成时，更贴合 AI 分身与 AI 客服角色，过度脑补、主观代入与情绪化表达明显减少，使整体体验更贴近“可信、自然、高效”。

在和平精英 AI NPC 场景评测中，团队在 Hy3preview 上线后第一时间完成接入并评测，整体表现亮眼。在局外的人设扮演场景，Hy3 Preview 能准确把握角色设定，并针对开放式问题输出更相关、更有增量价值的内容，带来更真实、自然、沉浸的对话体验；在局内复杂对战场景中，回复节奏贴近真实玩家聊天体验，稳定性与拟人化扮演能力同样出色。

在腾讯文档 AI PPT 场景，相比上一版本（Hy2），生成成功率提升 20%，评测得分提升 10%，生成耗时缩短 20%。整体来看，新模型在模板选择、色彩匹配、生成大纲、内容补充等阶段表现优秀，无幻觉、贴合主题、观感佳。

在 QQ AI 助手小Q的评测中，相比上一版本，在长文本首字节时延、整体响应速度与流式输出效率上均有显著优化；核心能力里，数学推理提升尤为明显，多场景指令遵循与泛化能力进一步增强；在工具调用推理与多轮指代消解方面表现更稳、更快，并在 OpenClaw 官方 PinchBench 的 QQ 智能体场景测试中取得出色成绩，综合体验大幅提升。

推理效率提升40%，同等成本智能密度最优

依托模型与推理框架的深度协同，以及在推理框架、算子性能、量化算法等方面的全链路优化，整体推理效率提升 40%，Hy3preview 的使用成本相较上一代明显降低。

在腾讯云大模型服务平台 TokenHub 上，Hy3preview 输入价格最低 1.2 元/百万 tokens，输入命中缓存价格 0.4 元/百万 tokens，输出价格最低 4 元/百万 tokens。同时，腾讯云联合混元推出定制 Hy3preview Token Plan 套餐，个人版定价最低 28 元/月，为 Agent 开发与打造“龙虾”应用提供更具性价比的选择。