406B参数重磅来袭!腾讯混元2.0启动内测,推理能力称跻身“国内第一梯队”

12月5日,腾讯发布新一代自研大模型——混元2.0(Tencent HY2.0),提供Think(推理加强版)与Instruct(指令跟随版)两种版本,参数总量406B、激活32B,支持256K超长上下文。官方表示,在数学、科学、代码等复杂推理任务上,表现稳居国内第一梯队。模型已同步接入腾讯云API,并在元宝、ima等原生应用中开启灰度。

MoE架构+长窗口RL,推理成绩刷新公开榜

– 采用混合专家(MoE)架构,实测单卡A100推理速度较稠密(Dense)结构提升约40%

– 在国际数学奥林匹克(IMO)2025公开题与哈佛-MIT数学竞赛中,HY2.0 Think版准确率分别达到83.1%与81.7%,高于GPT-4o的78.9%

– 256K长上下文通过“分段采样修正”缓解训练与推理不一致,10万Token文档QA任务F1提升6.8%

指令遵循与多轮对话优化

– 融合可验证任务与评分式强化学习,Instruct版在Multi-Round MT-Bench上得分8.42,比同规模模型高约0.3分

– 支持Function Call、Json Mode与Tool Use,官方实测100轮工具调用成功率为97.2%

落地加速:元宝、ima、腾讯云三线并行

– 元宝App灰度上线“HY2.0 Think”切换,提供数学推导与代码讲解两类场景

– ima会议助手接入256K长文本摘要,5万Token会议纪要生成耗时<15秒

– 腾讯云API定价为0.8元/百万Token输入、2元/百万Token输出,约为GPT-4o的45%,并支持企业私有化部署

开源计划:模型、数据与工具链齐发

腾讯透露,计划在2026年第一季度开源HY2.0 Base权重、200GB中文预训练数据及长窗口RL工具链,持续推动国产大模型生态发展。

行业观察:参数竞赛迈入“400B+”阶段

随着混元2.0、Llama3.1-405B、Moonshot400B相继推出,国产大模型正式步入400B参数俱乐部。腾讯强调“不是与开源社区拼参数,而是把推理与工具能力做深做强”,能否凭借MoE架构与RL策略在成本端占优,还需观察开发者生态与真实落地规模。我们将持续关注后续开源进展与性能评测。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享