英伟达面向开发者推出开放式多模态模型 “Nemotron 3 Nano Omni”。这款模型把视频、音频、图像和文本的推理能力合并到同一系统中,旨在带来更快速、更智能的响应。官方介绍称,模型采用先进的 30B-A3B 混合专家架构,内置视觉与音频编码器,无需额外的感知模块,因此在大规模推理时效率有显著提升。

在多种应用场景中,Nemotron 3 Nano Omni 表现亮眼,尤其是复杂文档解析以及视频、音频理解方面,已在六大权威榜单上名列前茅。凭借独特设计,模型可快速解读全高清屏幕录像,显著优化了智能体与数字环境的互动方式。H Company 首席执行官 Gautier Cloix 表示,基于该模型,公司实现了此前难以达成的快速解读能力,这被视为智能体技术的一次重要进步。
此外,Nemotron 3 Nano Omni 不仅在效率上有优势,还具备出色的多模态感知精度,其 AI 系统吞吐量相比同类方案最高可提升 9 倍。这使其在同类产品中颇具竞争力,为开放式多模态模型树立了新的效率标杆。英伟达同时透露,该模型已与多家企业系统对接,展现出强大的应用潜力。
过去一年里,Nemotron 3 系列(包含 Nano、Super 与 Ultra)累计下载量已突破 5000 万次,显示出市场对相关多模态技术的强烈认可与需求。此次发布有望进一步推动多模态能力落地,为各行业带来更实用的智能解决方案。
划重点:
📈 Nemotron 3 Nano Omni 将视频、音频、图像与文本推理合为一体,显著提升智能体响应速度。
🚀 在六大权威榜单上表现优异,具备强劲的文档解析与多模态理解能力。
🌍 系列一年内累计下载量超 5000 万次,体现市场对英伟达多模态技术的高需求。


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?