英伟达放大招!AI光看画面就能玩转3A 游戏,手速还碾压人类玩家?

AI 不靠脚本、不靠规则,光看画面就能玩转《茶杯头》《艾尔登法环》甚至《GTA》?

不是“自动挂机”,而是真·手眼协调、反应如电。

这事儿,英伟达刚干成了。

现在的AI,连游戏手柄都能“握”得比你稳。

一个会“看”游戏的AI,火了

说句实在话,周叔第一次看到 NitroGen 的演示视频时,还以为是某个技术大神录的实况。

角色在《茶杯头》里闪避、跳跃、踩魂一气呵成,节奏精准得像开了慢动作回放

可结果呢?全程无人操控,纯靠 AI 自主决策。

这个叫 NitroGen 的模型,由英伟达联合斯坦福、加州理工等机构推出。

但它不是针对某一款游戏的“外挂”,而是一个能通吃上千款游戏的通用智能体

它只干一件事:看画面,出操作

输入是游戏实时帧(256×256像素),输出是标准手柄信号——16个按键+双摇杆,覆盖市面上几乎所有支持手柄的商业游戏。

更关键的是,它不需要每款游戏单独训练

通过在 4 万小时、超 1000 款游戏的互联网视频上做行为克隆预训练,NitroGen 学会了“玩家直觉”。

面对从未见过的新游戏,只需少量微调,就能快速上手。

实验显示,在某些任务上,它的成功率比从零训练的模型高出 52%,这可不是小数点后的优化,是质的飞跃。

数据怎么来的?全靠“偷师”玩家直播

咱们可能不知道,但很多游戏主播为了展示操作细节,会在直播画面角落叠加一个“手柄输入显示器”。

英伟达团队就盯上了这个“免费教学素材”

他们爬取了 7.1 万小时带手柄叠加层的公开视频,用 SIFT 和 XFeat 算法定位控制器位置,再训练一个 SegFormer 分割模型,从图像中反推玩家的真实操作。

最终清洗出 4 万小时高质量视频-动作对,覆盖 846 款游戏超 1 小时数据,15 款游戏甚至超 1000 小时

有意思的是,为了防止模型“作弊”,他们在训练前会把视频里的控制器区域全部打码遮挡

也就是说,模型必须真正理解“画面发生了什么”,才能决定“该按哪个键”。

从另一个角度看,这其实是把全网玩家的集体经验,转化成了 AI 的肌肉记忆

Action-RPG 占 34.9%,平台跳跃占 18.4%,说明数据天然偏向快节奏、高操作要求的游戏。

这也解释了为什么 NitroGen 在《空洞骑士》这类游戏中表现尤为惊艳。

不只是玩游戏,更是通向具身智能的跳板

周叔得提醒大家一句:NitroGen 的野心,从来不在游戏圈

它的底层架构源自英伟达为机器人开发的 GR00T N1.5 模型,只是去掉了语言模块,专注视觉到动作的映射。

GR00T N1.5 机器人

研究团队明确表示,这只是“系统1”式的快速反应模型,未来要叠加语言理解、长期规划,才能成为真正的通用具身智能体

项目负责人之一、英伟达机器人总监Jim Fan此前在 MineDojo 项目中就提出:游戏是现实世界的低成本模拟沙盒

在这里,AI 可以安全地试错、学习物理交互、理解目标导向行为。

一旦打通跨环境泛化能力,迁移到真实机器人只是时间问题。

目前,NitroGen 已全面开源:代码、模型权重、数据集、评测套件全部公开

这意味着全球研究者都能在此基础上构建自己的“游戏AI”或“机器人策略”。

正如论文所说:“今天机器人学是AI最难问题的超集,明天它可能只是AGI宇宙中的一个坐标点。

结语

NitroGen 的出现,不只是让 AI 学会了打游戏,更是证明了通过海量真实人类行为数据,机器可以习得超越单一任务的通用技能

当 AI 能在千变万化的虚拟世界中自如行动,离它走进厨房、工厂、甚至手术室,或许就不远了。

这场从像素到动作的革命,才刚刚按下开始键。

展开阅读全文

更新时间:2025-12-25

标签:游戏   英伟   画面   人类   玩家   模型   机器人   手柄   小时   数据   视频   操作

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top