Anonymous Intelligence Signal
英伟达Jim Fan宣告机器人终局之战:2040年押注95%置信度,VLA范式遭质疑
英伟达具身自主研究团队负责人Jim Fan在AI Ascent大会上投下一枚重磅炸弹:以95%的置信度押注,2040年机器人技术树将彻底解锁。机器人技术树指从底层硬件、中层感知到上层决策的完整技术栈。Fan的逻辑简洁而大胆——机器人领域正在完整复制大语言模型的成功路径,从预训练到推理再到自动化研究,“这是对LLM成功路径的全面复刻”。他甚至开场即坦言:“LLM团队正在享受他们人生中最辉煌的时刻,机器人领域为什么不能也沾沾光?”
这场演讲的核心争议在于对现有主流训练方法的直接挑战。过去三年,VLA(视觉-语言-动作模型)几乎是机器人行业的标准答案,英伟达自家Groot与明星公司Pi均采用此路线。但Fan毫不客气地指出:VLA本质是“语言-视觉-动作模型”,算力严重向语言模块倾斜,机器人物理操作和“动词”能力明显薄弱。为此,英伟达推出了“世界行动模型”方案——先让机器人通过海量视频学习预测“世界接下来会发生什么”,再用少量操作数据微调聚焦真实任务,最后以强化学习收尾。具体产品Dream Zero能同步预测画面与输出动作,画面预测正确则动作执行,预测失败则动作中断。实验数据显示,它甚至能零样本完成从未见过的软体操作任务。
数据策略层面,Fan宣告遥操作时代已走向终点。他的核心论据是物理极限:“每台机器人每天的有效工作时间更像是3小时——而且还是在机器人状态良好、不闹脾气的情况下。”英伟达提出的替代路径是“类FSD方案”——数据采集无感化、背景化。其团队开发的MANUS系统实现五指机械手与人类手部的1:1映射,并已通过Ego Scale方案验证以人为中心的数据采集可行性。这场“终局之战”的号角已经吹响,但2040年的终局是否如Fan所愿,仍取决于技术路径能否真正兑现承诺。