Anonymous Intelligence Signal
谷歌DeepMind发布Gemini Robotics ER 1.6:机器人空间感知与指认能力实现三倍成功率跨越
谷歌DeepMind最新发布的机器人大脑Gemini Robotics ER 1.6,将机器人的物理世界交互能力推向了新高度。新模型的核心突破在于其空间感知、多视角解析与仪表读取的精准度,这直接转化为机器人执行“指认”动作的成功率飙升至上一代模型的三倍。这一跨越并非简单的功能升级,而是解决了数字智能与机械动作之间的核心鸿沟,让机器人具备了在复杂、动态的物理环境中理解并执行模糊人类指令的基础能力。
新模型专门针对复杂的具身推理需求进行训练。当遇到认知难题时,它能实时调用外部工具,包括Google Search获取实时信息,或调用视觉语言动作模型(VLA)及其他自定义功能模块,将高级思维转化为具体的机械执行步骤。其指认能力是这一切的基石:从杂乱的零件盒中精准识别并挑出体积最小的螺丝钉,或在堆叠的五金件中准确清点出2把锤子、1把剪刀、1把刷子和6把相互掩盖的钳子。更关键的是,当指令目标(如特定品牌电钻)不存在时,系统能保持“视觉克制”,绝不胡乱猜测,这标志着其逻辑推理与场景理解的深度进化。
这一进步直接提升了机器人在物理操作中的安全性与合规度。机器人需要精确估算物体尺寸(如杯子的容量与口径),规划三维移动轨迹,并遵守苛刻的物理约束条件。这种精准的空间与物理推理能力,是机器人未来走进千家万户或复杂工业环境(如现代工厂、维修场景)不可或缺的前提。它不仅意味着更高的任务成功率,也预示着机器人在自主执行看表干活、清点物品、寻找工具等具体任务时,将展现出前所未有的可靠性与环境适应性。