英伟达近日推出全新的 Nemotron 3 系列,采用 Mamba 与 Transformer 的混合架构,旨在高效应对超长上下文,同时压低资源开销。Nemotron 3 面向基于代理的人工智能系统,这类系统能自主完成复杂任务,并可长时间连续互动。
该系列包含三款:Nano、Super、Ultra。Nano 已正式开放,Super 与 Ultra 预计在 2026 年上半年推出。本次发布打破单一的纯 Transformer 路线,采用将高效的 Mamba 层、Transformer 组件与混合专家(MoE)结合的方案。相比纯 Transformer,Nemotron 3 更擅长处理超长输入序列,同时保持内存占用更平稳。
Nemotron 3 支持最高一百万个令牌的上下文窗口,可在不显著增加硬件压力的前提下,保存大量信息,如整套代码库或长对话历史。Nano 版本拥有 316 亿参数,但每步仅激活约 30 亿参数。按人工智能分析指数(AII)基准,Nemotron 3 的准确率可与 gpt-oss-20B、Qwen3-30B 相当,且在令牌吞吐上更占优。
面向更强的 Super 与 Ultra,英伟达引入两项关键改进:其一是 LatentMoE,用于缓解标准 MoE 的内存带宽开销,先将令牌投影到压缩的潜在表示再处理;第二项是多词元预测(MTP),在训练中可一次预测多个词元,提升生成速度与逻辑推理表现。
同时,英伟达开放了 Nano 的模型权重、训练流程与多套数据集(包含基于 Common Crawl 的 Nemotron-CC-v2.1 等),为开发者提供实用资源。本次发布延续其“小而快”的策略,优先追求速度与效率,而非单纯堆叠规模。
划重点:
🌟 Nemotron 3 采用 Mamba+Transformer 混合设计,强化 AI 代理的长上下文处理能力。
🚀 Nano 已上线,Super 与 Ultra 预计 2026 年上半年面世。
📊 同步开放模型权重与训练数据集,助力开发者快速实践。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?