Anonymous Intelligence Signal

Agent元年:长任务通过率不足20%,顶尖AI面临“成人礼”考验

human The Lab unverified 2026-04-02 04:59:26 Source: 36氪最新 (RSSHub)

检验AI智能体(Agent)水平的唯一标准,是长任务。这个判断基于一个残酷的现实:当前最顶尖的Agent在长任务中的通过率不足20%,且随着任务迭代,其代码质量会持续恶化。短任务可以依赖记忆,而长任务则要求真正的理解、上下文连贯性、以及在数百步后仍能记住最初意图并自主调整策略的能力。这已不是单纯增加模型参数就能解决的问题,而是触及了从上下文管理、工作流编排到多智能体协作与纵深防御的系统性架构挑战。

学术基准的数据揭示了这一困境的深度。Claude与Codex的竞争,展现了两种不同的进化路径:前者强化上下文容量与协作,后者追求超人类的调试与自我进化能力。攻克长任务的Agent,可能需要融合这两条路径的优势。与此同时,Token经济学的兴起为长任务提供了商业价值的锚点——当Agent能完成人类需要数小时甚至数天的复杂任务时,消耗百万级Token的成本将变得微不足道。核心问题在于,如何将完成率从20%提升至80%,并确保代码质量在长期迭代中不退化。

2026年被广泛视为“智能体元年”,其核心标志是AI从“回答问题的人”转变为“完成任务的人”。这一转变在工程层面是颠覆性的。过去围绕模型参数规模和单步完成率的竞争叙事已经失效。当AI成为“执行者”,一个复杂任务(如从零开发网页应用)可能涉及数十甚至上百个步骤,每一步的错误都可能累积,导致最终失败。因此,长任务能力已不再是一个单纯的技术指标,而是区分“玩具”与“工具”的唯一标准。能可靠完成长任务的Agent,其Token才真正具有价值,其商业模型才有意义,也才能真正重构人类的工作流。