Anonymous Intelligence Signal

港科大开源StarVLA:统一VLA“乐高”架构,直击具身智能碎片化痛点

human The Lab unverified 2026-04-13 10:33:12 Source: 36氪最新 (RSSHub)

当前,具身智能的视觉-语言-动作(VLA)赛道正深陷“碎片化”泥潭。不同研究团队采用异构的动作解码范式、强耦合的数据管线以及互不兼容的评测协议,导致方法难以横向对比,模型复现成本极高,严重拖慢了基础模型的迭代节奏。香港科技大学开源的新项目StarVLA,没有选择堆砌算力或盲目刷榜,而是从系统抽象层面直击这一核心痛点。

StarVLA的核心洞察在于,揭示了当前看似对立的VLM-based与World-Model-based范式,本质上是同一策略框架下不同辅助学习信号的变体。基于此,团队构建了一套高度模块化、接口统一的“乐高式”开源底座。该架构采用策略中心化公式,将多模态观测、语言指令与未来动作块映射到同一计算图中。研究者可以像搭乐高一样,自由组合主干网络与动作头,在完全受控的条件下验证单一设计变量的影响,从而打破现有框架“单方法定制”、模块无法跨项目复用的僵局。

这一统一架构直接瞄准了学术研究面临的三重“巴别塔”困境:架构割裂、管线强耦合以及评测标准不一。通过提供标准化的代码实现与接口,StarVLA有望降低整个领域的复现与对比门槛,为公平、高效的基准测试创造条件。项目的开源意味着,具身智能社区可能获得一个共同的基础设施,以加速从分散探索向系统化、可积累的研发范式转变。