英伟达发布 Nemotron 3：混合架构让 AI 代理更高效-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

英伟达近日推出全新的 Nemotron 3 系列，采用 Mamba 与 Transformer 的混合架构，旨在高效应对超长上下文，同时压低资源开销。Nemotron 3 面向基于代理的人工智能系统，这类系统能自主完成复杂任务，并可长时间连续互动。

该系列包含三款：Nano、Super、Ultra。Nano 已正式开放，Super 与 Ultra 预计在 2026 年上半年推出。本次发布打破单一的纯 Transformer 路线，采用将高效的 Mamba 层、Transformer 组件与混合专家（MoE）结合的方案。相比纯 Transformer，Nemotron 3 更擅长处理超长输入序列，同时保持内存占用更平稳。

Nemotron 3 支持最高一百万个令牌的上下文窗口，可在不显著增加硬件压力的前提下，保存大量信息，如整套代码库或长对话历史。Nano 版本拥有 316 亿参数，但每步仅激活约 30 亿参数。按人工智能分析指数（AII）基准，Nemotron 3 的准确率可与 gpt-oss-20B、Qwen3-30B 相当，且在令牌吞吐上更占优。

面向更强的 Super 与 Ultra，英伟达引入两项关键改进：其一是 LatentMoE，用于缓解标准 MoE 的内存带宽开销，先将令牌投影到压缩的潜在表示再处理；第二项是多词元预测（MTP），在训练中可一次预测多个词元，提升生成速度与逻辑推理表现。

同时，英伟达开放了 Nano 的模型权重、训练流程与多套数据集（包含基于 Common Crawl 的 Nemotron-CC-v2.1 等），为开发者提供实用资源。本次发布延续其“小而快”的策略，优先追求速度与效率，而非单纯堆叠规模。