NVIDIA 推出 NitroGen:引领游戏智能体的视觉-行动基础模型

NVIDIA 的人工智能研究团队近期发布了 NitroGen,这是一套面向通用游戏智能体的开放式视觉-行动基础模型。NitroGen 能直接从网络上的游戏视频学习,通过游戏画面与手柄输入来掌握商业游戏玩法。整套模型以 40,000 小时的游戏经验训练,覆盖超过 1,000 款游戏,并提供开放数据集、通用模拟器和预训练策略。

image.png

NitroGen 的数据构建从公开游戏视频开始,这些视频带有输入叠加层,如手柄按键的可视化。研究团队共收集了 71,000 小时原始素材,经过质量筛选后最终保留 40,000 小时精选数据,涵盖 818 位创作者的 38,739 个视频。统计显示,这些视频覆盖 846 款游戏,其中 34.9% 的时长来自动作角色扮演类,18.4% 来自平台类,9.2% 来自动作冒险,其余还包括体育、roguelike、赛车等多种类型。

在逐帧动作提取方面,NitroGen 采用三阶段流程:首先用 300 个控制器模板定位手柄叠加层;随后借助基于 SegFormer 的分类与分割模型解析手柄区域;最后进行坐标的精细化校准。该管线保证了动作预测的准确性,使 NitroGen 能高效开展大规模行为克隆。

此外,NitroGen 配备通用模拟器,可将商业 Windows 游戏封装为兼容 Gymnasium 的接口,支持逐帧交互,无需改动游戏代码。这让 NitroGen 能在多款游戏中直接复用同一套策略。

在策略架构上,NitroGen 采用基于 Diffusion Transformer 的设计,处理 256×256 分辨率的 RGB 图像。预训练后,NitroGen 在多项任务的零-shot 评估中表现良好,任务完成率达到 45%–60%。相较于从头训练,预训练在迁移到新游戏时带来显著优势,最高可提升 52% 的性能。

huggingface:https://huggingface.co/nvidia/NitroGen

划重点:  

📊 NitroGen 是开放式视觉-行动基础模型,可直接从网络游戏视频学习操作。  

🎮 数据集包含 40,000 小时游戏视频,覆盖超过 1,000 款游戏。  

🚀 预训练让 NitroGen 在新游戏上的表现显著提升,相比从头训练最高可提升 52%。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享