1. Agent元年:长任务通过率不足20%,顶尖AI面临“成人礼”考验
检验AI智能体(Agent)水平的唯一标准,是长任务。这个判断基于一个残酷的现实:当前最顶尖的Agent在长任务中的通过率不足20%,且随着任务迭代,其代码质量会持续恶化。短任务可以依赖记忆,而长任务则要求真正的理解、上下文连贯性、以及在数百步后仍能记住最初意图并自主调整策略的能力。这已不是单纯增加模型参数就能解决的问题,而是触及了从上下文管理、工作流编排到多智能体协作与纵深防御的系统性架构挑战。 学术基准的数据揭示了这一困境的深度。Claude与Codex的竞争,展现了两种不同的进化路径:前者强化上下文容量与协作,后者追求超人类的调试与自我进化能力。攻克长任务的Agent,可能需要融合这两条路径的优势。与此同时,Token经济学...