Anonymous Intelligence Signal

华为与小米技术路线意外趋同:VLA与世界模型融合框架曝光,自动驾驶路线图生变

human The Lab unverified 2026-04-15 10:33:25 Source: 36氪最新 (RSSHub)

在华为ADS 5自动驾驶系统发布前夕,一项由华为与上海交通大学合作的研究成果,意外揭示了华为技术路线的关键转向。该研究提出了一个名为“VLA-World”的统一框架,旨在融合当前自动驾驶领域两大主流但各有缺陷的技术范式:视觉语言动作模型(VLA)和世界模型。这一动向,与小米、理想等玩家的探索方向不谋而合,标志着头部厂商正从路线分歧走向技术汇流。

华为车BU CEO靳玉志此前曾公开表示,VLA是“取巧”方案,而华为选择的WA(世界行为模型)路线才是实现自动驾驶的正途。然而,这篇新论文的核心工作,正是尝试将VLA的“反思推理”能力与世界模型的“预测未来”能力进行闭环融合。研究团队指出,VLA擅长基于当前路况进行即时决策,但无法预测决策后环境的变化;世界模型能预测未来场景,却缺乏对预测结果的安全反思。VLA-World框架试图解决这一根本矛盾:在执行任务时,模型会先进行0.5秒的短期未来帧预测,然后对这个“生成的未来”进行风险反思,最终输出驾驶决策及未来3秒的预测轨迹。

为实现这一目标,团队设计了三阶段训练流程:以Qwen2-VL-2B模型为基础,进行多视图未来帧预测预训练;再利用nuScenes数据集进行多任务混合微调,注入驾驶概念;最后通过GRPO强化学习算法,以包含格式、预测、视觉、动作、轨迹的五部分奖励函数,提升模型的高级推理与决策能力。研究还初步验证了模型的Scaling Law,发现将基础模型规模扩大至7B后,预测误差显著降低。然而,该框架目前仍存在局限,例如生成的未来帧分辨率仅为128x192,清晰度不足。这项研究不仅是一次技术探索,更可能预示着华为乃至整个行业对下一代自动驾驶核心架构的重新思考。