英伟达近日带来了全新的 Nemotron 3 系列。这一代将 Mamba 与 Transformer 融合,面向长时上下文处理,在保证效率的同时降低资源占用。Nemotron 3 专为基于代理的人工智能系统设计,这类系统可以自主执行复杂任务,并能进行持续、长时间的交互。
这一系列包含三个型号:Nano、Super 和 Ultra。当前 Nano 已正式上线,Super 与 Ultra 预计在 2026 年上半年发布。本次发布打破了传统的纯 Transformer 路线,采用混合架构:把高效的 Mamba 层与 Transformer 组件以及混合专家(MoE)结合。相比纯 Transformer 模型,Nemotron 3 更擅长处理超长输入序列,同时让内存占用更平稳。
Nemotron 3 支持最高一百万个令牌的上下文窗口,与 OpenAI、Google 等前沿模型处于同一档次;它可在不过度压榨硬件的情况下保存大量信息,例如整套代码库或很长的对话历史。Nano 型号拥有 316 亿参数,但每一步仅有约 30 亿参数被激活。按照人工智能分析指数(AII)的基准,Nemotron 3 的准确率可与 gpt-oss-20B 与 Qwen3-30B 相当,同时在令牌吞吐方面更占优势。
英伟达还为更强的 Super 和 Ultra 型号带来两项关键架构升级。第一项是 LatentMoE,用来缓解标准 MoE 在内存带宽上的开销,让系统能在路由前把令牌投影到压缩的潜在表示。第二项是多词元预测(MTP),在训练时可一次预测多个词元,进而提升生成速度与逻辑推理能力。
此外,英伟达开放了 Nano 的权重、训练方案与多项数据集,包括基于 Common Crawl 的 Nemotron-CC-v2.1,方便开发者上手与复现。本次发布也呼应了英伟达聚焦小型语言模型的策略,更看重速度而非单纯追求峰值指标。
划重点:
🌟 Nemotron 3 采用 Mamba+Transformer 混合设计,面向 AI 代理的高效处理。
🚀 Nano 已开售,Super 和 Ultra 计划于 2026 年上半年亮相。
📊 官方开放模型权重与训练数据集,助力开发者快速创新。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?