全球首款“全AMD链路”训练的MoE大模型ZAYA1上线：14T tokens+CCA注意力，表现对标Qwen3-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

全球首款“全AMD链路”训练的MoE大模型ZAYA1上线：14T tokens+CCA注意力，表现对标Qwen3

拥抱AI，AIGC最佳实践者

417

AMD联合IBM与AI初创公司Zyphra发布ZAYA1——全球首个从训练到部署全程基于AMD硬件完成的MoE基础模型，预训练覆盖14T tokens，综合表现与Qwen3系列相当；在数学与STEM推理上，即便未做指令微调，也已逼近Qwen3专业版。

训练规模

– 集群：IBM Cloud 128个节点×每节点8张AMD Instinct MI300X，共计1024卡；采用InfinityFabric+ROCm，峰值算力达750 PFLOPs

– 数据：14T tokens，使用课程学习，从通用网页逐步过渡到数学/代码/推理；后训练版本将另行发布

架构创新

1. CCA注意力：卷积结合压缩嵌入的注意力头，显存占用下降约32%，长上下文吞吐提升约18%

2. 线性路由MoE：细化专家粒度并加入负载均衡正则，Top-2路由精度提升2.3个百分点；在稀疏度达70%时仍能保持高利用率

基准成绩

ZAYA1-Base（非指令版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准与Qwen3-Base持平；在CMATH与OCW-Math上有明显优势，验证了其在STEM方向的潜力。Zyphra透露，指令微调与RLHF版本将于2026年Q1推出，并开放API与模型权重下载。

AMD表示，此次合作证明MI300X+ROCm在大规模MoE训练中的可行性。后续将与更多云厂商复制“全AMD”集群方案，目标是在2026年训练规模超过100B参数的MoE模型时，实现与NVIDIA方案总体成本（TCO）持平。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐