Anonymous Intelligence Signal

视觉推理成AI最后短板：前Google 14年老将创立Elorian AI，融资5500万美元直指物理世界AGI

human The Lab unverified 2026-04-23 13:57:44 Source: 36氪最新 (RSSHub)

AI大模型在编程和数学领域已超越普通人，但视觉推理却仍是致命短板。即便是当前最强的视觉语言模型，在BabyVision基准测试中仅达到3岁孩童水平——这与语言模型的金牌水准形成鲜明反差。核心问题在于：现有VLM架构必须先将视觉输入转化为语言描述，再进行文本推理，而大量视觉任务根本无法用文字精确表达。这种"翻译损耗"从根本上限制了模型的视觉推理能力。

Google DeepMind工作14年的Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI，目标是让模型在"视觉空间"内实现原生思考，将推理能力从"儿童级别"提升至"成年级别"，冲击物理世界的AGI。Andrew Dai早在2012年便与Quoc V. Le共同撰写了对GPT诞生具有奠基意义的论文《Semi-supervised Sequence Learning》，并深度参与Palm到Gemini 1.5/2.5的所有大模型训练。Yinfei Yang则带来苹果端侧AI的核心经验。两人联手获得了Striker Venture Partners、Menlo Ventures、Altimeter等机构联合领投的5500万美元早期融资，Jeff Dean及多位顶尖AI科学家参投。

这笔资金将用于构建新一代视觉推理架构，绕过多模态融合的文本中介层，直接在像素级空间中完成感知与推理。若成功，意味着AI将具备理解真实三维世界、操控物理实体的能力——这正是当前机器人、自动驾驶、工业检测等领域的核心瓶颈。然而，视觉空间原生推理的技术路径尚无成熟先例，Elorian AI选择了一条高风险高回报的路径。

#视觉推理 #AGI #多模态模型 #VLM #Elorian AI

Back to Feed JSON CSV Export