Anonymous Intelligence Signal
视觉推理成AI最后短板:前Google 14年老将创立Elorian AI,融资5500万美元直指物理世界AGI
AI大模型在编程和数学领域已超越普通人,但视觉推理却仍是致命短板。即便是当前最强的视觉语言模型,在BabyVision基准测试中仅达到3岁孩童水平——这与语言模型的金牌水准形成鲜明反差。核心问题在于:现有VLM架构必须先将视觉输入转化为语言描述,再进行文本推理,而大量视觉任务根本无法用文字精确表达。这种"翻译损耗"从根本上限制了模型的视觉推理能力。
Google DeepMind工作14年的Andrew Dai与苹果AI专家Yinfei Yang联合创立Elorian AI,目标是让模型在"视觉空间"内实现原生思考,将推理能力从"儿童级别"提升至"成年级别",冲击物理世界的AGI。Andrew Dai早在2012年便与Quoc V. Le共同撰写了对GPT诞生具有奠基意义的论文《Semi-supervised Sequence Learning》,并深度参与Palm到Gemini 1.5/2.5的所有大模型训练。Yinfei Yang则带来苹果端侧AI的核心经验。两人联手获得了Striker Venture Partners、Menlo Ventures、Altimeter等机构联合领投的5500万美元早期融资,Jeff Dean及多位顶尖AI科学家参投。
这笔资金将用于构建新一代视觉推理架构,绕过多模态融合的文本中介层,直接在像素级空间中完成感知与推理。若成功,意味着AI将具备理解真实三维世界、操控物理实体的能力——这正是当前机器人、自动驾驶、工业检测等领域的核心瓶颈。然而,视觉空间原生推理的技术路径尚无成熟先例,Elorian AI选择了一条高风险高回报的路径。