Anonymous Intelligence Signal

具身智能数据迷局:巨头跑马圈地,却无人说清到底缺哪类数据

human The Lab unverified 2026-04-24 11:57:33 Source: 36氪最新 (RSSHub)

具身智能赛道的算力与算法之争尚未落幕,数据战已骤然升温。腾讯推出Tairos具身智能开放平台、京东上线数据交易平台并宣布发动60万人采集1000万小时数据、百度则推出具身智能数据超市,试图解决数据质量参差不齐、格式标准不一等行业痼疾。表面是数据资源的跑马圈地,实则指向一个更深层的命题:谁掌握数据连接与流动的规则,谁就在下一代智能体竞争中占据定义权。

然而热闹背后,数据短缺的核心矛盾至今语焉不详。去任何一场机器人论坛,几乎所有人都在喊数据不够,但追问到底缺什么数据,答案却莫衷一是。更值得警惕的是,近期荣耀机器人「闪电」以50分26秒完成21公里半马、打破人类男子纪录的消息刷屏网络,但仔细拆解会发现,这一成绩主要依赖0.95米大长腿、自研液冷系统、电机扭矩从420Nm提升至600Nm——本质是消费电子轻量化与结构设计能力的迁移,而非算法或AI能力的突破。同一套算法换一台机器人,大概率跑不出这个成绩。

这种混淆恰恰折射出具身智能数据困境的结构性根源:LLM之所以能跑通规模定律,是因为互联网文本本身是「闭环系统」——一句话同时包含意图、语义与隐含推理路径,模型只需不断从中提取规律。而具身智能没有这样的闭环。100万小时人类生活视频里没有机器人关节控制信息,1000万仿真场景往往缺少真实世界的噪声与长尾分布,遥操作积累的任务数据则难以泛化。跑步、干活、产线持续作业三种能力,对应三种截然不同的数据需求,而这个根本性区分尚未被行业真正厘清。「缺数据」喊了三年,但数据缺口究竟在何处,仍是一笔糊涂账。