NVIDIA 的人工智能研究团队近日发布了 NitroGen,这是一款面向通用游戏代理的开放式视觉—行动基础模型。NitroGen 能直接从网络视频中学习,通过游戏画面与手柄操作来驱动商业游戏玩法。整套模型以 40,000 小时的游戏体验为训练数据,覆盖超过 1,000 款游戏,同时开放数据集、通用模拟器与预训练策略。

NitroGen 的构建流程起步于公开的游戏视频,这些视频包含输入叠加层,例如手柄按键的可视化。研究团队共收集了 71,000 小时的原始素材,经过质量筛选后,最终保留 40,000 小时的精选数据,来自 818 位创作者的 38,739 个视频。统计显示,这些视频跨越 846 款游戏,其中 34.9% 的时长来自动作角色扮演类,18.4% 来自平台跳跃类,9.2% 来自动作冒险类,其余覆盖体育、roguelike、赛车等多种类型。
在逐帧动作提取方面,NitroGen 采用三阶段流程。首先,系统通过 300 个控制器模板定位手柄叠加区域;随后利用基于 SegFormer 的分类与分割模型解析手柄区域;最后对坐标进行精细化校准。该流程确保动作预测更为准确,使 NitroGen 能高效开展大规模行为克隆。
此外,NitroGen 配备了一个通用模拟器,可将商业版 Windows 游戏封装为兼容 Gymnasium 的接口,支持逐帧交互且无需修改游戏代码。这让 NitroGen 能在多款游戏中直接应用统一策略。
NitroGen 的策略架构基于 Diffusion Transformer,运行在 256×256 分辨率的 RGB 图像上。完成预训练后,NitroGen 在多项任务上展现出良好的零样本评估能力,任务完成率介于 45% 至 60% 之间。相较于从头训练,预训练迁移到新游戏时的表现提升显著,最高可达 52%。
huggingface:https://huggingface.co/nvidia/NitroGen
划重点:
📊 NitroGen 属于开放式视觉—行动基础模型,可直接从网络游戏视频学习操控。
🎮 数据集覆盖 40,000 小时游戏视频,涉及超过 1,000 款游戏。
🚀 预训练让 NitroGen 在新游戏中的表现显著增强,相比从零开始训练,最高提升 52%。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?