NVIDIA 发布通用游戏智能体基准模型 NitroGen

2025 年 12 月 19 日,由 NVIDIA 领衔,联合斯坦福大学、加州理工学院等机构的研究团队发布了名为 NitroGen 的视觉-动作(Vision-Action)基础模型。该模型旨在构建能够适应多种虚拟环境的通用型游戏智能体。该模型基于超过 40,000 小时 的游戏视频训练,涵盖 1,000 多款不同类别的游戏。研究人员开发了一套自动化管线,通过关键点匹配(Keypoint Matching)和混合分类分割网络,从公开视频中的“手柄叠加层(Input Overlays)”直接提取玩家的操作指令,解决了具身智能领域标注动作数据匮乏的问题。NitroGen 采用了 GR00T N1.5 架构(原用于机器人领域),通过大规模行为克隆(Behavior Cloning)训练统一的视觉-动作策略,实现了从像素输入到手柄动作输出的直接映射。

该项目目前已在 GitHub 和 Hugging Face 上开源了模型权重、数据集及评估套件。研究团队指出,NitroGen 不仅是游戏 AI 的里程碑,其验证的互联网规模数据预训练管线也将为现实世界中的机器人、自动驾驶等具身智能研究提供通用化能力的开发基础。

nitrogen
 
 
Back to Top